当前位置: 首页 > news >正文

vLLM代码推理Qwen2-VL多模态大模型(远程服务器解决方案,无需UI)

由于近期代码微调以及测试都是在远程服务器上,因此LLamafactory-cli webui 以及vLLM的ui均无法使用,因此不断寻求解决方案,我提供一个解决方案,LLamafactory微调完成的模型需要合并为一个完整模型后再使用vLLM进行代码推理测试微调模型的结果。

由于chat启动的终端互动模式均无法上传图像进行交互,因此需要代码或者参数来上传图像进行理解。

Vision Language — vLLM

 这个链接里有vLLM支持的多模态大模型不同的函数对prompt的处理

我在这里提供一个使用vLLM对Qwen2-VL的多模态图像理解的python代码

from vllm import LLM, SamplingParams
from PIL import Imagedef run_qwen2_vl(questions: str, image_path: str):# 模型初始化配置llm = LLM(model="Qwen/Qwen2-VL-Lora_Sft",max_model_len=4096,max_num_seqs=5,dtype="half")# 多模态数据加载image = Image.open(image_path)question = "What is the content of this image?"# 提示词构造prompt_template = [("<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n""<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>"f"{question}<|im_end|>\n""<|im_start|>assistant\n") for question in questions]print(prompt_template[0])sampling_params = SamplingParams(max_tokens=1024,temperature=0.8,top_p=0.95,frequency_penalty=0.2,presence_penalty=0.3,stop=["<|im_end|>"])# 生成请求outputs = llm.generate({"prompt": prompt_template[0],"multi_modal_data": {"image": image},}, sampling_params=sampling_params)# 结果解析return [output.outputs[0].text for output in outputs]# 使用示例
if __name__ == "__main__":response = run_qwen2_vl(questions=["请使用中文描述下这个图像并给出中文诊断结果"],image_path="aaaa.jpg")print("模型输出:", response[0])


http://www.mrgr.cn/news/93305.html

相关文章:

  • 机器学习数学基础:40.结构方程模型(SEM)中卡方值与卡方自由度比
  • 人工智能神经网络基本原理
  • cursor使用经验分享(java后端服务开发向)
  • Dify+DeepSeek | Excel数据一键可视化(创建步骤案例)(echarts助手.yml)(文档表格转图表、根据表格绘制图表、Excel绘制图表)
  • 启智平台华为昇腾910B 运行DeepSeek Janus-Pro-7/1B
  • Dify 开源大语言模型应用开发平台使用(一)
  • 【Oracle学习笔记】1.数据库组成对象
  • mybatis日期格式与字符串不匹配bug
  • 突破光学成像局限:全视野光学血管造影技术新进展
  • 网络编程之TCP协议
  • YOLOv8改进SPFF-LSKA大核可分离核注意力机制
  • java 查找两个集合的交集部分数据
  • 随机树算法 自动驾驶汽车的路径规划 静态障碍物(Matlab)
  • Qt:事件
  • NUMA架构介绍
  • vulnhub靶场之【digitalworld.local系列】的mercy靶机
  • 深度学习五大模型:CNN、Transformer、BERT、RNN、GAN详细解析
  • 【Embedding】何为Embedding?
  • tomcat的安装与配置(包含在idea中配置tomcat)
  • [mybatis]resultMap详解