当前位置：首页 > news >正文

Sink Token

news 2025/4/3 7:42:02

论文：ICLR 2025 MLLM视觉VAR方法Attention重分配

Sink Token 是一种在语言模型(LLM)和多模态模型(MLLM)中用于优化注意力分配的关键机制，通过吸收模型中冗余的注意力权重，确保注意力资源不被无效或无关信息占用。以下是对这一概念的系统性解析：

比喻：想象你有一个"注意力垃圾桶"，模型会把不重要的信息扔进去，避免干扰关键任务。
定义：Sink Token 是模型中某些特殊标记（如文本中的标点、图像中的背景区域），它们会吸收大量注意力权重，但本身对输出贡献很小。

1. 语言模型中的 Sink Token

定义与本质

Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符)，其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重，但对模型最终输出的实质性贡献极低。

关键功能

注意力重分配机制：通过将冗余注意力"汇聚"到这些特殊标记，防止无关信息干扰模型对核心内容的处理
长序列稳定性增强：在生成长文本时，Sink Token能有效稳定注意力分布，提高生成质量
内存效率优化：在StreamingLLM等流式处理架构中，Sink Token使模型能以恒定内存复杂度处理理论上无限长的序列

工作原理示例

当模型处理长文本时，标准Transformer架构会随着序列长度增加而导致注意力"稀释"，而Sink Token通过吸收部分注意力，使模型能够将剩余注意力更精确地分配给真正重要的标记。

2. 多模态模型中的视觉 Sink Token

特征与表现

在多模态模型(如LLaVA)中，视觉Sink Token指图像中那些与任务无关但错误地获得高注意力权重的区域。这些区域的隐藏状态同样在Dsink维度上具有异常高的激活值，这一特性是从基础语言模型中继承而来。

独特性质

注意力消耗与低贡献并存：尽管吸收大量注意力资源，这些视觉区域对答案生成几乎没有帮助（多项消融实验证实）
位置特征：视觉Sink Token常集中在图像背景或低信息密度区域
可识别性：通过分析注意力热图和Dsink维度激活模式可有效识别

优化方法：视觉注意力重分配(VAR)

研究提出了VAR方法，通过：

识别视觉Sink Token区域
动态抑制这些区域的注意力权重
将"节省"的注意力预算重新分配给语义相关的视觉区域

3. Sink Token在不同模态中的对比

特性	语言模型Sink Token	多模态模型视觉Sink Token
形成机制	预定义标记或模型学习的占位符	图像中信息稀疏但获得过高关注的区域
识别方法	Dsink维度激活值分析	同左，但结合视觉注意力热图
优化目的	稳定长序列处理，降低注意力稀释	提升跨模态对齐精度，减少视觉噪声干扰

在语言模型中的表现：

例子：在生成文本时，模型会过度关注 BOS（开始标记）或标点符号（如逗号），即使这些标记本身无意义。
原因：这些标记的隐藏状态在特定维度（Sink Dimensions）上激活值异常高，导致注意力被"吸"过去。

在多模态模型中的表现：

例子：模型处理图像时，可能会持续关注背景的草地或天空（与问题无关的区域），即使问题问的是"图片里有没有狗"。
关键发现：这些视觉 Sink Token 的隐藏状态在 Sink Dimensions 上激活值很高，类似语言模型中的现象。

4.什么是 Sink Dimensions？

比喻：模型的隐藏状态是一个高维空间，Sink Dimensions 是其中某些"特殊坐标"，这些坐标容易被 Sink Token 占据。
定义：Sink Dimensions 是隐藏状态中一组特定维度（如 LLaMA-2 的 Dsink={1415, 2533}），Sink Token 在这些维度上的激活值异常高。

如何识别 Sink Dimensions？

步骤：

计算激活值：对每个标记的隐藏状态，计算其在 Sink Dimensions 上的激活值。
归一化：用均方根（RMS）归一化，避免数值过大。
阈值判定：若某标记的 Sink Dimension Value > 阈值（如 T=20），则标记为 Sink Token。

通过归一化隐藏状态在 Sink Dimensions 上的激活值（Sink Dimension Value），若超过阈值（如 T=20），则标记为 Sink Token。

公式:

$\text{Sink Dimension Value} = \frac{\max_{d \in D_{\text{sink}}} x[d]}{\sqrt{\frac{1}{D}\sum_{d=1}^{D}x[d]^2}}$

其中 $x$ 为隐藏状态， $D$ 为总维度数。

可视化验证：

通过注意力图可视化发现，Sink Token 的注意力权重分布与关键视觉区域分离，且其隐藏状态在 Sink Dimensions 上显著突出

实验验证：

屏蔽实验：如果删除 Sink Token，模型性能几乎不变（如 LLaVA 屏蔽后准确率仅下降 0.1%）。
注意力图可视化：Sink Token 的注意力权重集中在图像背景，而非关键物体（如图6中的"logo"未被正确关注）。

VAR 方法（视觉注意力重分配）

核心思想：

问题：模型将过多注意力浪费在 Sink Token（如背景区域），而关键视觉信息（如目标物体）未被充分关注。
解决方案：从 Sink Token 中"回收"注意力预算，重新分配给重要区域。

具体步骤：

识别 Sink Token：

通过 Sink Dimensions 筛选出高激活值的视觉标记（如背景区域）。
示例：若某图像区域的隐藏状态在 Dsink={1415, 2533} 上激活值 >20，则标记为 Sink Token。

选择以图像为中心的注意力头：

筛选标准：
- 舍弃对视觉标记总注意力权重 <0.2 的头（这些头不关注图像）。
- 选择"视觉非汇比率"（rh）>0.6 的头（rh = 非 Sink Token 的注意力权重占比）。
作用：这些头更关注与文本相关的视觉区域（如图4中"滑板"问题对应的注意力头）。

重分配注意力权重：

提取预算：从 Sink Token 的注意力权重中提取比例 p（如 p=0.6）作为预算 Ω。
重新分配：将 Ω 按原始注意力权重比例分配给非 Sink Token。
公式：
$a_{i,j}^\text{新} = a_{i,j} + \Omega \cdot \frac{a_{i,j}}{\sum_{k \in \text{非汇标记}} a_{i,k}}$
效果：关键区域的注意力权重增强，背景区域的权重降低。