当前位置: 首页 > news >正文

NeurIPS 2024 Oral:用 DuQuant 实现 SOTA 4bit 量化

关注公众号:青稞AI,学习最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

当今 LLM 中存在非常大的离群值(outliers),为低比特量化带来了巨大挑战。而传统方法在 LLM FFN 模块中的 down_proj layer 存在明显的 massive outliers,表现为大于几百的激活值并局限于个别的 tokens 中,这些 massvie outliers 造成 SmoothQuant 和 OmniQuant 等量化算法在 4bit 权重激活量化中表现糟糕。

在这里插入图片描述

为了消除 outliers,研究者提出了 DuQuant,它可以通过学习旋转变换和通道置换变换,在激活矩阵内部将 outliers 转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低了量化难度。DuQuant 在 4-bit 权重激活量化 setting 下明显提升了不同架构量化模型在 PPL、QA、MMLU、MT-Bench 和 LongBench 等任务上的性能。

Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs:https://arxiv.org/pdf/2406.01721
Code: https://github.com/Hsu1023/DuQuant
Project:https://duquant.github.io

11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。

Talk信息

主讲嘉宾

林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。

主题提纲

DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化

1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
  - LLM 中的离群值(outliers)问题
  - 正交变换分散 LLM 离群值策略
  - 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 1105 ",报名进群!


http://www.mrgr.cn/news/63127.html

相关文章:

  • TensorFlow 预训练目标检测模型集合
  • 计算机系统结构为什么用architecture 而不是structure?
  • 理解为什么要有C++设计模式
  • 【flink】之新版本kafka到kafka
  • 大数据治理:策略、技术与挑战
  • 影刀RPA自动化按钮参数详解
  • 浏览器的异步行为导致多个文件下载时没有全部执行
  • 微服务基础拆分实践(第一篇)
  • 【Linux 从基础到进阶】分布式文件系统的高可用配置
  • DAYWEB69 攻防-Java 安全JWT 攻防Swagger 自动化算法签名密匙Druid 泄漏
  • 关于解决keil中出现乱码的情况处理,搜索框乱码
  • 什么是Javascript,有什么特点
  • 计算机毕业设计——ssm基于微信平台的校园汉服租赁系统的设计与实现演示录像2021微信端
  • XXXX 本地模型替换为 两家 API
  • 环境变量——用户变量和系统变量
  • (实战)WebApi第9讲:EFCore性能优化(IQueryable延迟查询、取消跟踪机制)
  • Python爬虫必备利器:urllib库全面解析
  • 在树莓派 Raspbian 11 上使用 pyenv 安装 Python 3.9
  • Maven 插件
  • 基于单片机的宠物自动喂食系统的设计
  • Vue 动态属性 []
  • 2024年10月总结及随笔之漏更及失而复得
  • 多线程和线程同步基础篇学习笔记(Linux)
  • 微服务实战系列之玩转Docker(十七)
  • 【2024工业图像异常检测文献】SuperSimpleNet: 统一无监督和监督式学习检测快速可靠的表面缺陷检测方法
  • 数字信号处理Python示例(1)使用Python生成正弦信号