当前位置: 首页 > news >正文

【Linux】环境ChatGLM-4-9B 模型部署

一、模型介绍

GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。 在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出超越 Llama-3-8B 的卓越性能。除了能进行多轮对话,GLM-4-9B-Chat 还具备网页浏览、代码执行、自定义工具调用(Function Call)和长文本推理(支持最大 128K 上下文)等高级功能。本代模型增加了多语言支持,支持包括日语,韩语,德语在内的 26 种语言。我们还推出了支持 1M 上下文长度(约 200 万中文字符)的 GLM-4-9B-Chat-1M 模型和基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中,GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。

接下来我们试试部署ChatGLM4-9B基础版模型。

二、项目地址

Github地址:https://github.com/THUDM/GLM-4/tree/main

模型地址:https://huggingface.co/THUDM/glm-4-9b/tree/main

模型有很多,如下图:可以在 hugging face 选择不同的模型下载。

三、硬件条件

服务器环境:Linux

操作系统:ubuntu 22.04

架构:x86_64

实例规格:GPU A10 24G显存

四、ChatGLM4-9B部署

1.准备工作

(1)安装Anaconda软件

注意:Anaconda无版本要求,主要和Linux的架构保持一致。

可参考博客:Linux环境安装Anaconda(详细图文)_linux安装anaconda-CSDN博客

(2)创建GLM4需要的python环境并激活

        ① 创建GLM4环境

conda create -n glm4 python=3.10.12

        ② 激活环境

conda activate glm4 

2.拉取GLM4项目代码 

(1)切换到磁盘挂载目录

cd /data/

(2)拉取代码并切换到对应目录

git clone https://github.com/THUDM/GLM-4.gitcd GLM-4/basic_demo

(3)下载依赖

pip install -r requirements.txt --upgrade

 3.下载GLM4模型

说明:如果不能直接通过服务器上下载,可以通过windows上挂载代理软件访问抱脸地址:https://huggingface.co/THUDM/glm-4-9b/tree/main 把Files and versions 下文件全部下载,模型下载时间比较长,耐心等待。

下载完成后并将下载好模型传到服务器上(上传的位置是刚刚克隆下github的目录 basic_demo 下新建一个model目录,再在model下创建一个glm-4-9b目录存放模型) 如下所示:

4. 运行GLM4模型

(1)编辑trans_web_demo.py

修改模型加载目录,由于我新建了一个model目录就修改如下图所示:

在文件底部还需要修改下服务器IP,由于之前写的是127.0.0.1,只能本地访问,需要修改为0.0.0.0 所有IP都可以访问。 

 修改完成之后保存并退出。

(2)运行ChatGLM4的web

在 basic_demo 目录下运行命令:python trans_web_demo.py

报错1:找不到peft库

 解决方案:下载peft库命令:pip install peft

报错2:

解决方案:下载穿透工具,按照上面步骤下载穿透工具并移动到对应目录,第三步骤根据自己的位置,移动到对应为止即可。下载这个frpc_linux_amd64 需要关闭防火墙不然下载不成功。

报错3:不能创建分享链接

解决方案:给下载好的frpc_linux_amd64设置可执行权限即可 命令:chmod +x  /xx/xx/frpc_linux_amd64_vo.3

运行成功后的截图:

说明:如果想尝试 trans_cli_demo.py 也是修改文件的模型路径即可。

5.成果展示

 浏览器访问:公网IP+8000端口 注意开放8000端口。

GPU显存为24G的推理速度很快,GPU显存占用18G左右。到此ChatGLM4-9B部署完成,大家感兴趣可以试试。


http://www.mrgr.cn/news/61865.html

相关文章:

  • Xcode 16.1 (16B40) 发布下载 - Apple 平台 IDE
  • C++17 折叠表达式
  • vue3中ref和reactive的用法,区别和优缺点,以及使用场景
  • LiNo论文解析
  • 实现RPC接口的demo记录
  • 深入理解JavaScript:两大编程思想和ES6类以及对象概念解析
  • 消息队列-Rabbitmq(消息发送,消息接收)
  • 什么情况下会导致 RCU CPU Stall 警告?
  • 平价开放式耳机品牌推荐有哪些?五大性价比开放式耳机推荐!
  • 代码随想录算法训练营第十五天|110平衡二叉树、257二叉树的所有路径 、404左叶子之和、222完全二叉树的节点个数
  • 收藏 | 推荐15个数据可视化图表绘制网站
  • Windows on ARM编译python的sherpa-onnx库
  • 网络准入控制
  • 直播推流和拉流--系统篇
  • 【机器学习(二十二)】零代码开发之LightGBM算法-Sentosa_DSML社区版
  • ssm014基于JSP的乡镇自来水收费系统+jsp(论文+源码)_kaic
  • 需求挖掘时,深入访谈5大技巧!
  • 【话题】Midjourney与未来设计:AI绘画工具能否取代人类创造力?
  • Nature子刊丨可再生能源对电力系统天气脆弱性的影响
  • Java面试经典 150 题.P27. 移除元素(002)
  • 【C++】C++预编译头文件、基准测试benchmark
  • QT相机连接与拍照
  • threejs 实现灯光照射模型有阴影
  • MyBatis 读取全局变量
  • 好用的透明加密软件有哪些
  • yolov8训练及测试(ubuntu18.04、tensorrt、ros)