当前位置：首页 > news >正文

普通电脑上安装属于自己的Llama 3 大模型和对话客户端

news 2025/7/6 10:55:42

#大模型下载地址：#

Llama3

因为Hugging Face官网正常无法访问，因此推荐国内镜像进行下载：

官网地址：https://huggingface.co

国内镜像：https://hf-mirror.com

GGUF 模型文件名称接受，如上述列表中，有Meta-Llama-3-8B-Instruct.Q4_K_M.gguf和Meta-Llama-3-8B-Instruct.Q5_K_M.gguf等：

Instruct代表本模型是对基线模型进行了微调，用于更好地理解和生成遵循指令（instruction-following）的文本，以提供符合要求的响应

Q4/Q5 等代表模型权重的量化位数（其中Q是Quantization的缩小，即量化），是一种模型压缩技术，用于减少模型大小，同时降低对计算资源的需求（特别是内存），但又尽量保持模型的性能；数字4或5则代表量化精度的位数（Q4 是 4 位，Q5 是 5 位等），精度越高模型体积和内存使用也会越大，但仍然远小于未量化的基线模型

K_M/K_S代表含义笔者还未明确，K可能是Knowledge的缩写；M应该是Medium缩写（即中等模型），S应该是Small缩小（即小模型）；若有明确的朋友，还望不吝告知，共同进步！

若个人电脑配置不是特别好，我们可以选择Q2_K版本（大小 3.2GB），它相较于Q4_K_M版本（大小 4.9GB），Q2版本的推理精度较低，但速度较快，而Q4版本在速度和精度之间均取得了很好的平衡，因此首选推荐Q4_K_M版本。

# 打开两个CMD终端：
# cd D:\pythonProject
# .\venv\Scripts\activate#终端一

 python -m llama_cpp.server --host 0.0.0.0 --model models\\Publisher\\Repository\\Meta-Llama-3-8B-Instruct.Q2_K.gguf

#终端二

python Llama3-ChatAPI.py

Llama3-ChatAPI.py代码：

from openai import OpenAI# 注意服务端端口，因为是本地，所以不需要api_key
client = OpenAI(base_url="http://localhost:8000/v1",api_key="not-needed")# 对话历史：设定系统角色是一个只能助理，同时提交“自我介绍”问题
history = [{"role": "system", "content": "你是一个智能助理，你的回答总是正确的、有用的和内容非常精简."},{"role": "user", "content": "请用中文进行自我介绍，要求不能超过5句话，总字数不超过100个字。"},
]
print("\033[92;1m")# 首次自我介绍完毕，接下来是等代码我们的提示
while True:completion = client.chat.completions.create(model="local-model",messages=history,temperature=0.7,stream=True,)new_message = {"role": "assistant", "content": ""}for chunk in completion:if chunk.choices[0].delta.content:print(chunk.choices[0].delta.content, end="", flush=True)new_message["content"] += chunk.choices[0].delta.contenthistory.append(new_message)print("\033[91;1m")userinput = input("> ")if userinput.lower() in ["bye", "quit", "exit"]: # 我们输入bye/quit/exit等均退出客户端print("\033[0mBYE BYE!")breakhistory.append({"role": "user", "content": userinput})print("\033[92;1m")

启动成功，恭喜你，你已经迈入 Llama 大模型大厦的大门了，后面存在无限可能，就看我们的创意了！

查看全文

http://www.mrgr.cn/news/72362.html