NeurIPS 2024 Oral:用 DuQuant 实现 SOTA 4bit 量化
关注公众号:青稞AI,学习最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks
当今 LLM 中存在非常大的离群值(outliers),为低比特量化带来了巨大挑战。而传统方法在 LLM FFN 模块中的 down_proj layer 存在明显的 massive outliers,表现为大于几百的激活值并局限于个别的 tokens 中,这些 massvie outliers 造成 SmoothQuant 和 OmniQuant 等量化算法在 4bit 权重激活量化中表现糟糕。
为了消除 outliers,研究者提出了 DuQuant,它可以通过学习旋转变换和通道置换变换,在激活矩阵内部将 outliers 转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低了量化难度。DuQuant 在 4-bit 权重激活量化 setting 下明显提升了不同架构量化模型在 PPL、QA、MMLU、MT-Bench 和 LongBench 等任务上的性能。
Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs:https://arxiv.org/pdf/2406.01721
Code: https://github.com/Hsu1023/DuQuant
Project:https://duquant.github.io
11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。
Talk信息
主讲嘉宾
林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。
主题提纲
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
- LLM 中的离群值(outliers)问题
- 正交变换分散 LLM 离群值策略
- 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践
参与方式
Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 1105 ",报名进群!