pip3 install "fschat[model_worker,webui]" -i https://pypi.tuna.tsinghua.edu.cn/simple/
- 启动控制器服务
python3 -m fastchat.serve.controller
- 启动 Model Worker 服务(可以通过CUDA_VISIBLE_DEVICES来指定显卡)
python3 -m fastchat.serve.model_worker --model-path 【你的本地大模型路径】
- 启动 RESTFul API 服务(可以指定ip和端口,默认端口是8000)
python3 -m fastchat.serve.openai_api_server --host 【你的ip】 --port 【你的端口】
- 注意
- –num-gpus 指定运行模型的gpu个数
–model-name 默认以部署的model-path作为模型名称,可通过–model-name修改,比如–model-name Qwen - 在浏览器中访问
http://【你的ip】:【你的端口】/docs
可以查看接口信息,这个服务即最终要用的LLM API 服务,它的接口跟OpenAI 的接口是兼容的
- 测试代码
import requests
import json
import openaidef get_completion_qwen_7B(prompt):openai.api_key = "你的密钥"openai.base_url = "http://【你的ip】:【你的端口】/v1/"model = "Qwen2.5-7B-Instruct" completion = openai.completions.create(model=model, prompt=prompt, max_tokens=64)data = {"messages": [{"role": "user", "content": prompt}]}completion = openai.chat.completions.create(model=model,messages=[{"role": "user", "content": prompt}])return completion.choices[0].message.content