当前位置：首页 > news >正文

大模型低资源部署策略

news 2024/10/28 23:58:26

文章目录

- 解码效率分析
- 大模型训练后量化方法
- 经验性分析与相关结论

由于大模型的参数量巨大，在解码阶段需要占用大量的显存资源，因而在实际应用中的部署代价非常高。在本文中，我们将介绍一种常用的模型压缩方法，即模型量化（ModelQuantization），来减少大模型的显存占用，从而使得能够在资源有限的环境下使用大模型

解码效率分析

在神经网络压缩中，量化通常是指从浮点数到整数的映射过程，目前比较常用的是8比特整数量化，即INT8量化。针对神经网络模型，通常有两种类型的数据需要进行量化，分别为权重量化（也称为模型参数量化）和激活（值）量化，它们都以浮点数形式进行表示与存储。量化的数学表述量化的过程可以表示为一个函数，该函数将连续的输入映射到离散的输出集合。一般来说，这个过程涉及到四舍五入或截断等近似操作。下面介绍一个一般形式的量化函数：在这里插入图片描述通过上述数学变换，量化算法将浮点数向量𝒙转化为量化值𝒙𝒒。其中，𝑆表示缩放因子，用于确定裁剪范围，𝑍表示零点因子，用于确定对称或非对称量化，