当前位置：首页 > news >正文

Kubernetes运行 Llama3

news 2024/10/22 11:38:29

引言

Ollama 是一个运行大模型的工具，可以看成是大模型领域的 Docker，可以下载所需的大模型并暴露 API。OpenWebUI 是一个大模型的 Web UI 交互工具，支持 Ollama，即调用 Ollama 暴露的 API 实现与大模型交互。本文将详细介绍如何在 Kubernetes 上部署 Ollama 和 OpenWebUI，以运行 Llama3 大语言模型。

部署方案选型

虽然 OpenWebUI 的仓库中自带 Ollama + OpenWebUI 的部署方式（主要是 kustomize 和 helm），但本文更推荐直接写 YAML 进行部署，原因如下：

Ollama + OpenWebUI 所需 YAML 相对较少，直接根据需要写 YAML 更直接和灵活。
不需要研究 OpenWebUI 提供的 kustomize 和 helm 方式的用法。

选择模型

Llama3 目前主要有 8b 和 70b 两个模型，分别对应 80 亿和 700 亿规模的参数模型。CPU 和 GPU 都支持，但根据模型大小和硬件配置，性能会有很大差异：

8b 是小模型，对配置要求不高，一般处于成本考虑，可以直接使用 CPU 运行。
70b 是大模型，CPU 几乎无法胜任，GPU 的配置也需要较高。经实测，24G 显存运行会非常慢，32G 的也有点吃力，40G 的相对流畅（比如 Nvidia A100）。

准备 Namespace

首先，我们需要准备一个 namespace，用于部署运行 llama3 所需的服务：

kubectl create ns llama

部署 Ollama

以下是 Ollama 的部署 YAML：

apiVersion: apps/v1
kind: StatefulSet
metadata:name: ollamanamespace: llama
spec:serviceName: "ollama"replicas: 1selector:matchLabels:app: ollamatemplate:metadata:labels:app: ollamaspec:containers:- name: ollamaimage: ollama/ollama:latestports:- containerPort: 11434resources:requests:cpu: "2000m"memory: "2Gi"nvidia.com/gpu: "0" # 如果要用 Nvidia GPU，这里声明下 GPU 卡limits:cpu: "4000m"memory: "4Gi"volumeMounts:- name: ollama-volumemountPath: /root/.ollamatty: truevolumeClaimTemplates:- metadata:name: ollama-volumespec:accessModes: ["ReadWriteOnce"]resources:requests:storage: 200Gi # 注意要确保磁盘容量能够容纳得下模型的体积
---
apiVersion: v1
kind: Service
metadata:name: ollamanamespace: llamalabels:app: ollama
spec:type: ClusterIPports:- port: 11434protocol: TCPtargetPort: 11434selector:app: ollama

部署 OpenWebUI

以下是 OpenWebUI 的部署 YAML：

apiVersion: v1
kind: PersistentVolumeClaim
metadata:name: webui-pvcnamespace: llamalabels:app: webui
spec:accessModes: ["ReadWriteOnce"]resources:requests:storage: 2Gi---
apiVersion: apps/v1
kind: Deployment
metadata:name: webuinamespace: llama
spec:replicas: 1selector:matchLabels:app: webuitemplate:metadata:labels:app: webuispec:containers:- name: webuiimage: imroc/open-webui:main # docker hub 中的 mirror 镜像，长期自动同步，可放心使用env:- name: OLLAMA_BASE_URLvalue: http://ollama:11434 # ollama 的地址tty: trueports:- containerPort: 8080resources:requests:cpu: "500m"memory: "500Mi"limits:cpu: "1000m"memory: "1Gi"volumeMounts:- name: webui-volumemountPath: /app/backend/datavolumes:- name: webui-volumepersistentVolumeClaim:claimName: webui-pvc---
apiVersion: v1
kind: Service
metadata:name: webuinamespace: llamalabels:app: webui
spec:type: ClusterIPports:- port: 8080protocol: TCPtargetPort: 8080selector:app: webui

^{_{_{_{© ivwdcwso (ID: u012172506)}}}}

打开 OpenWebUI

部署完成后，你可以通过多种方式将 OpenWebUI 暴露给集群外访问，比如 LoadBalancer 类型 Service、Ingress 等。这里我们使用 kubectl port-forward 的方式将 webui 暴露到本地：

kubectl -n llama port-forward service/webui 8080:8080

然后在浏览器中打开 http://localhost:8080。首次打开需要创建账号，第一个创建的账号为管理员账号。

下载模型

有三种方法可以下载模型：

方法一：通过 OpenWebUI 下载

进入 OpenWebUI 并登录。
在"设置-模型"中，输入需要下载的 llama3 模型并点击下载按钮。
等待下载完成。

注意：如果页面关闭，下载会中断，可重新打开页面并重新输入要下载的模型进行下载，会自动断点续传。
^{_{_{_{© ivwdcwso (ID: u012172506)}}}}

方法二：执行 ollama pull 下载

进入 ollama 的 pod：

kubectl -n llama exec -it ollama-0 bash

执行 ollama pull 下载需要的模型，例如：
```
ollama pull llama3:70b
```
等待下载完成。

注意：如果 kubectl 的连接中断，下载也会中断，可重新执行命令断点续传。

方法三：使用 init container 自动下载模型

修改 Ollama 的部署 YAML，加入 initContainer 来实现自动下载模型：

initContainers:- name: pullimage: ollama/ollama:latesttty: truestdin: truecommand:- bash- -c- |model="llama3:8b" # 替换需要使用的模型ollama serve &sleep 5 # 等待 ollama server 就绪result=`ollama list | grep $model`if [ "$result" == "" ]; thenecho "downloading model $model"ollama pull $modelelseecho "model $model already been downloaded"fivolumeMounts:- name: ollama-volumemountPath: /root/.ollama

开始对话

打开 OpenWebUI 页面，选择模型，然后就可以在对话框中开始对话了。

小技巧

GPU 调度策略

对于像 70b 这样的大模型，需要较好的 GPU 才能跑起来。如果集群内有多种 GPU 节点，需要加下调度策略，避免分配到较差的 GPU。

例如，要调度到显卡型号为 Nvidia Tesla V100 的节点：

给节点打上 label：
```
kubectl label node gpu=v100
```
配置调度策略：
```
nodeSelector:gpu: v100
```

省钱小妙招

如果使用云厂商托管的 Kubernetes 集群，且不需要大模型高可用，可以购买竞价实例(Spot)，会便宜很多。
如果只在部分时间段使用，可以使用定时伸缩，在不需要的时间段将 Ollama 和 OpenWebUI 的副本数自动缩到 0 以停止计费，比如使用 KEDA 的 Cron 触发器实现定时伸缩。

常见问题

节点无公网导致模型下载失败

ollama 所在机器需要能够访问公网，因为 ollama 下载模型需要使用公网，否则会下载失败，无法启动。可通过查看 init container 的日志确认。

大模型的生成速度非常慢

对于 70b 这样的大模型，使用 CPU 运行几乎不可行，而使用 GPU 也需要足够大的显存。如果没有更好的 GPU，可以考虑使用多张 GPU 卡并行。修改 ollama 的 YAML，在 requests 中声明多个 GPU：

resources:requests:nvidia.com/gpu: "4"

这样，在模型运行时，几张 GPU 卡可以均摊显存，提高生成速度。

结论

通过本文的指导，你应该能够在 Kubernetes 集群上成功部署 Ollama 和 OpenWebUI，并运行 Llama3 大语言模型。这种部署方式具有以下优点：

灵活性：可以根据需求自由选择和切换不同的模型。
可扩展性：利用 Kubernetes 的特性，可以方便地进行扩缩容。
资源优化：通过合理的资源配置和调度策略，可以充分利用集群资源。
易于管理：使用 Kubernetes 进行部署，便于统一管理和监控。

然而，在实际应用中，你可能还需要考虑以下几点：

安全性：确保模型和用户数据的安全，可能需要额外的安全措施。
性能优化：根据实际使用情况，可能需要进一步优化资源配置和网络设置。
成本控制：大模型运行可能会消耗大量资源，需要合理规划和控制成本。
^{_{_{_{© ivwdcwso (ID: u012172506)}}}}

未来展望

随着大语言模型技术的不断发展，我们可以期待：

更高效的模型：未来可能会出现参数量更小但性能相当或更优的模型，这将降低硬件要求。
更好的部署工具：像 Ollama 这样的工具可能会变得更加强大和易用。
云原生集成：大语言模型服务可能会更深度地集成到云原生生态中，提供更seamless的使用体验。

参考资料

Llama3 可用模型列表
Open WebUI 文档
Ollama 官网
使用 KEDA 的 Cron 触发器实现定时伸缩

附录：故障排查指南

在部署和使用过程中，你可能会遇到一些问题。以下是一些常见问题的排查建议：

Pod 无法启动
- 检查 Pod 的事件和日志
- 确保资源配额充足
- 检查镜像拉取策略和镜像仓库的可访问性
模型下载失败
- 确保节点有公网访问权限
- 检查网络策略，确保允许必要的出站流量
- 尝试使用镜像或代理服务器
WebUI 无法访问
- 检查 Service 配置是否正确
- 确保防火墙规则允许相应的流量
- 检查 Ingress 配置（如果使用）
模型加载缓慢
- 检查存储性能，考虑使用更快的存储类型
- 优化网络设置，减少延迟
- 考虑使用本地缓存或预加载机制
生成速度慢
- 检查 GPU 利用率，考虑增加 GPU 数量或使用更强力的 GPU
- 优化模型配置，如降低精度或使用量化技术
- 考虑使用分布式推理技术
内存溢出
- 增加容器的内存限制
- 检查是否有内存泄漏，考虑定期重启服务
- 优化模型或切换到更小的模型

最佳实践建议

监控和告警：设置适当的监控和告警机制，及时发现和解决问题。
定期更新：保持 Ollama、OpenWebUI 和模型的版本更新，以获得最新的功能和性能改进。
资源规划：根据实际使用情况，定期评估和调整资源配置。
安全加固：实施必要的安全措施，如网络隔离、访问控制等。
备份和恢复：定期备份重要数据和配置，制定恢复策略。
性能测试：在生产环境部署前，进行充分的性能测试和压力测试。
文档和培训：保持文档的更新，并对运维人员进行必要的培训。

通过遵循这些最佳实践，你可以构建一个更加稳定、高效和安全的 Llama3 大语言模型服务。
^{_{_{_{© ivwdcwso (ID: u012172506)}}}}

结语

在 Kubernetes 上部署和运行 Llama3 大语言模型是一个既有挑战性又充满机遇的任务。通过本文介绍的方法和技巧，你应该能够成功地在你的 Kubernetes 集群中运行这个强大的 AI 模型。随着技术的不断发展，我们期待看到更多创新的应用场景和部署方案。希望本文能为你的 AI 之旅提供有价值的参考和指导。

查看全文

http://www.mrgr.cn/news/54107.html