Sink Token
论文:ICLR 2025 MLLM视觉VAR方法Attention重分配
Sink Token 是一种在语言模型(LLM)和多模态模型(MLLM)中用于优化注意力分配的关键机制,通过吸收模型中冗余的注意力权重,确保注意力资源不被无效或无关信息占用。以下是对这一概念的系统性解析:
- 比喻:想象你有一个"注意力垃圾桶",模型会把不重要的信息扔进去,避免干扰关键任务。
- 定义:Sink Token 是模型中某些特殊标记(如文本中的标点、图像中的背景区域),它们会吸收大量注意力权重,但本身对输出贡献很小。
1. 语言模型中的 Sink Token
定义与本质
Sink Token 是特殊的标记(如预定义的BOS
或可学习的占位符),其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重,但对模型最终输出的实质性贡献极低。
关键功能
- 注意力重分配机制:通过将冗余注意力"汇聚"到这些特殊标记,防止无关信息干扰模型对核心内容的处理
- 长序列稳定性增强:在生成长文本时,Sink Token能有效稳定注意力分布,提高生成质量
- 内存效率优化:在StreamingLLM等流式处理架构中,Sink Token使模型能以恒定内存复杂度处理理论上无限长的序列
工作原理示例
当模型处理长文本时,标准Transformer架构会随着序列长度增加而导致注意力"稀释",而Sink Token通过吸收部分注意力,使模型能够将剩余注意力更精确地分配给真正重要的标记。
2. 多模态模型中的视觉 Sink Token
特征与表现
在多模态模型(如LLaVA)中,视觉Sink Token指图像中那些与任务无关但错误地获得高注意力权重的区域。这些区域的隐藏状态同样在Dsink维度上具有异常高的激活值,这一特性是从基础语言模型中继承而来。
独特性质
- 注意力消耗与低贡献并存:尽管吸收大量注意力资源,这些视觉区域对答案生成几乎没有帮助(多项消融实验证实)
- 位置特征:视觉Sink Token常集中在图像背景或低信息密度区域
- 可识别性:通过分析注意力热图和Dsink维度激活模式可有效识别
优化方法:视觉注意力重分配(VAR)
研究提出了VAR方法,通过:
- 识别视觉Sink Token区域
- 动态抑制这些区域的注意力权重
- 将"节省"的注意力预算重新分配给语义相关的视觉区域
3. Sink Token在不同模态中的对比
特性 | 语言模型Sink Token | 多模态模型视觉Sink Token |
---|---|---|
形成机制 | 预定义标记或模型学习的占位符 | 图像中信息稀疏但获得过高关注的区域 |
识别方法 | Dsink维度激活值分析 | 同左,但结合视觉注意力热图 |
优化目的 | 稳定长序列处理,降低注意力稀释 | 提升跨模态对齐精度,减少视觉噪声干扰 |
在语言模型中的表现:
- 例子:在生成文本时,模型会过度关注
BOS
(开始标记)或标点符号(如逗号),即使这些标记本身无意义。 - 原因:这些标记的隐藏状态在特定维度(Sink Dimensions)上激活值异常高,导致注意力被"吸"过去。
在多模态模型中的表现:
- 例子:模型处理图像时,可能会持续关注背景的草地或天空(与问题无关的区域),即使问题问的是"图片里有没有狗"。
- 关键发现:这些视觉 Sink Token 的隐藏状态在 Sink Dimensions 上激活值很高,类似语言模型中的现象。
4.什么是 Sink Dimensions?
- 比喻:模型的隐藏状态是一个高维空间,Sink Dimensions 是其中某些"特殊坐标",这些坐标容易被 Sink Token 占据。
- 定义:Sink Dimensions 是隐藏状态中一组特定维度(如 LLaMA-2 的 Dsink={1415, 2533}),Sink Token 在这些维度上的激活值异常高。
如何识别 Sink Dimensions?
- 步骤:
- 计算激活值:对每个标记的隐藏状态,计算其在 Sink Dimensions 上的激活值。
- 归一化:用均方根(RMS)归一化,避免数值过大。
- 阈值判定:若某标记的 Sink Dimension Value > 阈值(如 T=20),则标记为 Sink Token。
通过归一化隐藏状态在 Sink Dimensions 上的激活值(Sink Dimension Value),若超过阈值(如 T=20),则标记为 Sink Token。
公式:
Sink Dimension Value = max d ∈ D sink x [ d ] 1 D ∑ d = 1 D x [ d ] 2 \text{Sink Dimension Value} = \frac{\max_{d \in D_{\text{sink}}} x[d]}{\sqrt{\frac{1}{D}\sum_{d=1}^{D}x[d]^2}} Sink Dimension Value=D1∑d=1Dx[d]2maxd∈Dsinkx[d]
其中 x x x 为隐藏状态, D D D 为总维度数。
可视化验证:
通过注意力图可视化发现,Sink Token 的注意力权重分布与关键视觉区域分离,且其隐藏状态在 Sink Dimensions 上显著突出
实验验证:
- 屏蔽实验:如果删除 Sink Token,模型性能几乎不变(如 LLaVA 屏蔽后准确率仅下降 0.1%)。
- 注意力图可视化:Sink Token 的注意力权重集中在图像背景,而非关键物体(如图6中的"logo"未被正确关注)。
VAR 方法(视觉注意力重分配)
核心思想:
- 问题:模型将过多注意力浪费在 Sink Token(如背景区域),而关键视觉信息(如目标物体)未被充分关注。
- 解决方案:从 Sink Token 中"回收"注意力预算,重新分配给重要区域。
具体步骤:
- 识别 Sink Token:
- 通过 Sink Dimensions 筛选出高激活值的视觉标记(如背景区域)。
- 示例:若某图像区域的隐藏状态在 Dsink={1415, 2533} 上激活值 >20,则标记为 Sink Token。
- 选择以图像为中心的注意力头:
- 筛选标准:
- 舍弃对视觉标记总注意力权重 <0.2 的头(这些头不关注图像)。
- 选择"视觉非汇比率"(rh)>0.6 的头(rh = 非 Sink Token 的注意力权重占比)。
- 作用:这些头更关注与文本相关的视觉区域(如图4中"滑板"问题对应的注意力头)。
- 重分配注意力权重:
- 提取预算:从 Sink Token 的注意力权重中提取比例 p(如 p=0.6)作为预算 Ω。
- 重新分配:将 Ω 按原始注意力权重比例分配给非 Sink Token。
- 公式:
a i , j 新 = a i , j + Ω ⋅ a i , j ∑ k ∈ 非汇标记 a i , k a_{i,j}^\text{新} = a_{i,j} + \Omega \cdot \frac{a_{i,j}}{\sum_{k \in \text{非汇标记}} a_{i,k}} ai,j新=ai,j+Ω⋅∑k∈非汇标记ai,kai,j - 效果:关键区域的注意力权重增强,背景区域的权重降低。
总结
- Sink Token 是模型中吸收冗余注意力的标记,Sink Dimensions 是它们的"藏身维度"。
- VAR 方法 通过"回收-重分配"机制,让模型更关注关键视觉信息,无需训练即可提升性能。