当前位置: 首页 > news >正文

vllm源码解析(六):采样策略分析

九 采样策略分析

在前面几篇文章中,详细讲述了vllm的调度系统和模型推理流程,现在还剩下最后一个问题,即如何对齐输出结果。
本来觉得这部分内容很快就能写完,不过在实测过程中有很多疑点,最近忙于其他事情,没空研究这部分内容。这里先放个屁股,有机会再补上。

先列举下遇到的问题:
在模型输出特征一致的情况下, 影响输出token最大因素即是不同的采样策略,如transformers和vllm的推理结果会有偏差。

目前可以确定,是采样方法差异导致的推理结果不一致,在 https://zhuanlan.zhihu.com/p/658780653 文章中给出了改写方法,不过新版vllm中,情况比该文章描述的更复杂:

比如llama3和llama3.1,在prompt一样时,transformers和vllm的推理结果是对齐的,但qwen系列结果对不齐,这就很奇怪,因为vllm解码与采样策略是所有模型公用的。

另外大模型MLP过程中,down_proj计算,单batch与合并后的多batch计算结果会有少量差异,原因还没找到。

请添加图片描述


http://www.mrgr.cn/news/56695.html

相关文章:

  • 【ARM】ARM架构参考手册_Part B 内存和系统架构(2)
  • 【ShuQiHere】深入解析数字电路中的锁存器与触发器
  • CDL数据传输工具
  • 音视频入门基础:FLV专题(15)——Video Tag简介
  • Linux 和Windows创建共享文件夹实现文件共享
  • LSL常见应用场景及示例<一>
  • Kafka-Windows搭建全流程(环境,安装包,编译,消费案例,远程连接,服务自启,可视化工具)
  • 【运维自动化-作业平台】如何使用全局变量之主机列表类型?
  • C++模板编程:使用模板实现高效泛型算法
  • 情怀程序员,没有套路的坐下和大家掏心窝聊聊今年的1024 | 程序员节
  • 软考系统分析师知识点二十:系统安全性分析与设计
  • pycharm配置git版本控制
  • java-如何对vo里面的字段或者Map里面数据进行排序
  • Redis-05 Redis哨兵高可用架构原理与搭建
  • C语言-文件读写代码详解
  • 【汇编语言】第一个程序(一)—— 一个源程序从写出到执行的过程
  • WPF修改应用程序桌面图标
  • 【Git原理与使用】多人协作
  • 【Vue3】第一篇
  • 系统架构设计师教程 第4章 4.1-2 信息安全基础知识及意义 笔记
  • 【Linux系统编程】第三十六弹---深入探索进程间通信:封装共享内存类并实现进程间数据共享
  • python安卓开发
  • 0160____declspec(noreturn)的用法
  • 【趣学C语言和数据结构100例】
  • C++网络编程之绑定
  • PCB生产制造商强达电路,公布网上申购情况及中签率