Predicting Human Scanpaths in Visual Question Answering
ABSTRACT
注意力是人类和计算机视觉系统中的重要机制。尽管当前最先进的模型关注通过自由观察行为估计静态概率显著性图,现实场景中充满了类型和复杂性各异的任务,视觉探索是一个影响任务表现的时间过程。为弥合这一差距,我们首次研究和预测人类在执行通用任务时的眼动时间序列(即注视路径),并探讨注视路径如何影响任务表现。
我们提出了一种新的深度强化学习方法,用于预测视觉问答任务中导致不同表现的注视路径。在任务引导图的条件下,所提出的模型学习特定问题的注意力模式以生成注视路径。该方法通过自批评序列训练解决了注视路径预测中的暴露偏差问题,并设计了一种一致性-分散性损失,以生成正确和错误答案之间可区分的注视路径。
该模型不仅能够准确预测视觉问答中人类行为的时空模式(如注视位置、持续时间和顺序),还能够推广到自由观察和视觉搜索任务,在所有任务中实现了接近人类水平的表现,并显著超越了现有最先进的模型。
Introduction
视觉注意力在日常任务中的关键作用
视觉注意力在完成日常任务中扮演着重要角色。现有研究主要关注刺激驱动的自由观察行为,而另一种形式的注意力,即任务驱动注意力,通过选择与任务相关的信息来做出决策或完成任务。与突出视觉输入相对重要性的静态显著性图不同,眼动的时间序列提供了更全面和自然的注意力表示。理解和预测通用任务中的视觉注视路径,不仅可以揭示决策过程,还可用于多种计算机视觉应用。
图 1.人类的视觉扫描路径可以揭示他们的决策策略并解释他们的表现。那些关注相关视觉提示的人可以实现高水平的任务执行。此示例比较了成功或未能回答问题的人的扫描路径,其中点表示注视。数字和半径分别表示注视顺序和持续时间。蓝色和红色圆点分别表示扫描路径的开始和结束。
任务驱动的视觉注视路径反映了完成任务的视觉探索过程,并且与任务表现强烈相关。例如(图1),回答“花瓶的颜色是否与围巾相同?”这一问题时,人们需要主动探索场景并寻找花瓶和围巾。正确时机关注正确位置通常会产生正确答案(图1,中间),而未能做到则可能导致错误答案(图1,右侧)。
为理解和建模通用任务驱动注意力,我们提出了一种新颖的深度强化学习方法,利用任务引导作为重要模态来预测人类在通用任务中的视觉探索行为。我们首先引入任务引导图来指定与任务相关的图像区域,该图被设计并验证可以跨任务泛化。为了解决训练时和测试时上下文之间的暴露偏差,我们引入了一种强化学习方法,直接优化不可微分的测试时评估指标【14】。此外,我们设计了一种新的损失函数,考虑正确和错误注视路径之间的一致性和分散性,以区分导致不同表现的眼动模式。
研究特点
本研究与以往注视路径预测研究相比有以下三大特点:
- 当前最先进的注视路径预测研究主要集中于自由观察【4, 5, 13, 40】或视觉搜索等结构化任务【52】。本研究首次探讨复杂决策任务中的注视路径模式,并分析其与任务表现的相关性。
- 注视路径预测相较于显著性预测而言尚未普及,且与人类相比性能欠佳,部分原因在于训练和测试上下文的暴露偏差。本研究通过强化学习中的自批评序列训练缩小了这一差距,显著提升了性能,并超过了人类水平。
- 我们超越单一任务,设计了一种新机制来编码通用的任务相关信息,易于适配不同类型和复杂程度的任务。通过三个任务的实验验证,结果达到人类水平。
贡献总结
- 提出了一个深度强化学习模型,用于理解和预测视觉问答(VQA)等通用任务驱动场景中的注视路径,并首次将任务表现纳入预测。
- 显式整合任务特定深度神经网络模型生成的注意力图,编码任务相关信息,同时提供一种通过比较模型与人类注意力来评估任务特定模型可解释性的方法。
- 应用自批评序列训练,优化不可微分的评估指标,解决了训练与测试上下文的差异问题。进一步引入新颖的损失函数,学习判别特征,区分正确与错误注视路径。
- 在三个任务(VQA、自由观察、视觉搜索)中显著超越现有技术水平,并表现出接近人类的性能,证明方法的通用性。
Related Work
Scanpath Prediction
预测人类注视路径(scanpath)并非易事,因为眼动行为受多种复杂因素影响【9】。现有注意力模型主要采用以下两种方法:
- 生成显著性图:通过概率分布和“赢家通吃”策略采样注视点【11, 24, 25, 26, 45】。
- 预测注视序列:建模注视点的时空复杂性【4, 5, 8, 13, 22, 31, 34, 40, 41, 43, 46, 47, 49】。
本研究与任务驱动注意力的最新研究密切相关【52】,但我们关注范围更广的通用任务,而非视觉搜索等结构化任务。以**视觉问答(VQA)**为例,我们展示方法的普适性与灵活性,并首次将注视路径预测扩展到VQA任务中,同时考虑回答正确性的影响。我们的模型不仅在VQA任务中接近人类水平,还展现出在不同任务和数据集上的高度泛化能力。
人类与机器注意力在VQA中的联系
我们工作的独特之处在于显式整合机器注意力来预测人类注视路径。
- 深度学习中的注意力机制:随着神经网络的发展,注意力机制已成为提高VQA模型性能和解释性的重要组件【12, 28, 44】。
- 人类与机器注意力的差异:机器注意力与人类注意力在许多情况下并不一致【44】。Chen 等人【12】和 Jiang 等人【28】开发了数据集和方法,分析人类与VQA模型的注意力图。但这些分析多关注正确与错误答案之间的空间差异,而我们的方法通过生成个体注视点捕捉时间信息(如注视持续时间和顺序)。
- 评估VQA模型解释性:通过将机器注意力显式整合到注视路径预测中,我们的方法提供了测量VQA模型可解释性的替代方式,即基于机器注意力在指导注视路径预测中的有效性进行评估。
强化学习在注意力预测中的应用
强化学习为预测人类注意力提供了一种可行的方法:
- 早期研究:将选择性注意力建模为马尔可夫决策过程【6, 42】,通过策略迭代和预定义奖励函数优化【27, 35, 36】。
- 最近方法:采用逆向强化学习【1, 3】从人类眼动行为中自动学习未知奖励函数【33, 51, 52】。
尽管这些方法具有潜力,但注视路径预测模型与人类之间仍存在显著性能差距。
性能差距的原因:我们认为主要是由于序列预测任务中普遍存在的暴露偏差(exposure bias)【38】。暴露偏差指训练和测试场景之间的上下文差异。
- 非可微评估指标的挑战:注视路径预测的许多评估指标基于非可微分的序列比较算法,大多数方法只能使用传统交叉熵或显著性评估指标进行训练,导致训练时与测试时场景的不一致。
我们的方法
为解决暴露偏差,我们采用自批评序列训练(SCST)【38】,直接优化非可微的测试时评估指标。在此基础上,我们提出了一种一致性-分散性损失(Consistency-Divergence loss),以学习正确和错误注视路径之间的差异。
这种方法有效地提升了注视路径预测性能,显著缩小了与人类表现之间的差距。
Method
我们开发了一种深度强化学习模型,用于研究和预测一般决策任务中的复杂注视路径模式,同时将任务表现纳入考量。本节介绍所提网络的架构以及用于训练网络的方法,特别是通过正确和错误的注视路径进行训练的关键技术创新:
- 创建任务指导图,动态引导注视位置和持续时间的预测。
- 采用带有自批评序列训练的强化学习方法,解决暴露偏差问题。
- 提出一致性-分散性损失,学习正确和错误注视路径之间的差异。
3.1 网络架构
在VQA任务中,人类的注视点很大程度上取决于输入的问题。现有任务驱动的注意力模型使用独热向量【52】或语言嵌入【28】对任务输入进行编码。这些编码方法为模型提供语义指导以生成与任务相关的输出,但无法在空间上对齐任务语义与视觉内容。
我们不同地计算了一个通用的任务指导图,以突出任务相关的图像区域。此任务指导图设计易于适应其他任务,例如,对于自由浏览任务,可以是全零矩阵;对于视觉搜索任务,可以使用目标检测掩码提供指导。本节以VQA任务为例总结我们的方法。
Experiments
4.1 实验设置
数据集
我们主要在 AiR 数据集【12】上进行实验。该数据集由 GQA【23】平衡验证集中选择的图像和问题组成,并提供了从 20 名参与者回答问题时收集的眼动追踪数据。
- 每个问题由 10 名不同的参与者回答,其眼动追踪数据与其答案相关联。
- 记录的注视路径中,正确答案(10.12 ± 0.99)和错误答案(10.27 ± 1.54)的注视次数相近,其空间先验也高度相似。这些相似性确保模型不会基于先验分布区分正确路径和错误路径。
- 我们将该数据集随机划分为训练集(1137 个问题)、验证集(142 个问题)和测试集(143 个问题),且各子集中正确答案的比例保持平衡
评估指标
为了评估模型性能,我们使用每个模型生成的 10 条正确/错误注视路径,并将其与对应的真实注视路径进行比较。评估指标包括以下四种:
- ScanMatch【14, 39】:基于 Needleman-Wunsch 算法【7】衡量注视路径的相似性。由于其对注视路径固有的噪声具有鲁棒性,ScanMatch 被广泛用于评估注视路径预测模型。
- MultiMatch【17】:一种多维度评估指标,包括形状、方向、长度、位置和持续时间五个相似性度量。
- 字符串编辑距离(SED)【10, 20】:一种相异性度量,将注视路径转化为字符串,通过将每个图像区域与字符关联进行比较。
- 缩放时间延迟嵌入(STDE)【46】:通过计算每段子序列之间的最小欧几里得距离的平均值,衡量注视路径的相似性。
对于 SED 和 STDE,我们报告平均分数和最佳评估分数:
- 平均分数为所有受试者的平均值,
- 最佳分数基于与人类最相似的注视路径计算【18】。
这些互补的评估指标为预测结果提供了全面的视角。
实现细节
- 视觉特征编码器:使用 ResNet-50【21】提取视觉特征,并使用 AiR【12】VQA 模型计算任务指导图。对象级注意力权重通过计算其边界框掩码的加权平均转化为空间图【12】。
- 输入图像分辨率:240 × 320;注视位置被离散化为 30 × 40 的动作图。
- 监督学习:使用 Adam【30】优化器,学习率为 10−410^{-4}10−4,权重衰减为 5×10−55 \times 10^{-5}5×10−5。为了避免损失发散,我们采用 warmup 策略【53】,随后对学习率进行线性衰减。
- 强化学习:同样使用 Adam【30】优化器,初始学习率为 5×10−55 \times 10^{-5}5×10−5,随后线性衰减,权重衰减为 5×10−55 \times 10^{-5}5×10−5。
- SCST(自批评序列训练):分别为正确和错误答案采样 k=5k = 5k=5 条不同的注视路径。奖励函数定义为两个 ScanMatch 分数的调和平均值,一个包含持续时间,另一个不包含。
- ScanMatch 实现:训练和评估中使用的 ScanMatch 指标实现遵循【14, 39】。
- 超参数:基于验证集表现,超参数 λλλ 和 γγγ 分别设置为 1.0 和 2.0。
4.2. 预测的注视路径是否合理?
我们首先评估预测的注视路径在多大程度上模拟了人类行为。由于这是首次在 VQA 任务中预测注视路径,为了公平比较,我们对最相关的基于深度学习的注视路径预测模型(即 SaltiNet【5】、PathGAN【4】和 IOR-ROI【40】)进行了定制,结合问题的 BERT 嵌入【16】和视觉特征,并联合预测正确和错误的注视路径。
按照【40, 52】的做法,我们通过分别计算正确组和错误组中的观察者间一致性来衡量人类的表现。对于每张图像,我们测量同组中每对人类注视路径的相似性,并计算其平均值。
表 1 展示了各方法的定量结果。我们的方法在注视位置和持续时间的预测上显著提升。在 11 个指标中,我们的方法在 9.5 个指标上显著优于其他方法。例如,其 ScanMatch 分数相比最新方法分别提高了 84%(正确)和 69%(错误)。此外,我们的方法在 6.5/11 个指标上甚至超越了人类表现。
图 3 给出了预测注视路径的定性示例。虽然现有最先进模型通常关注显著性物体,但我们的预测注视路径在注视位置、持续时间和顺序上与任务相关的物体及人类眼动行为更加一致。需要注意的是,注视路径的细微差异可能决定答案的正确性:错误的注视路径始终遗漏了重要的物体(如电话和刀具)。
值得一提的是,除了在预测正确注视路径方面的显著性能提升,我们的方法在预测导致错误答案的注视路径方面也表现有效,因此能够避免这些错误路径。我们发现,与正确路径相比,错误路径的一致性较差(这也与人类得分一致),这可能是因为导致错误决策的因素多种多样。然而,通过任务引导和新颖的 CDL 损失函数,我们的方法能够捕捉正确和错误注视路径之间的微妙差异,并学习到与答案正确性相关的判别性特征,从而成功预测出正确和错误的注视路径。
4.3. 模型性能的贡献因素
我们提出的方法有三个主要技术贡献:作为任务引导(TG)的 VQA 模型注意力、用于解决曝光差距的 SCST 方法,以及新颖的一致性-发散损失(CDL)。为了展示每个组件的贡献,我们将它们逐步应用到基线模型(即我们方法的任务无关监督学习变体)。如表 2 所示,每个组件都有助于预测正确和错误的注视路径。特别是,虽然单独使用任务引导(TG)在监督学习中带来的改进相对较小,但它在结合 SCST 的强化学习中发挥了更重要的作用。这个观察结果表明,SCST 可以帮助模型更好地利用任务输入来注视与任务相关的区域。最后,结合 SCST 使用新的 CDL 损失能够优化正确和错误注视路径的组内一致性和组间一致性,从而进一步提升模型性能。
4.4. 预测的注视路径注视了什么?
为了研究预测的注视路径注视了不同的物体,我们将注视位置与 GQA 数据集提供的地面真实物体标注对齐。我们将每张图像分为三个区域:1)兴趣区域(ROI),由问题和答案中的所有物体组成;2)非兴趣区域(Non-ROI),由不包含在 ROI 中的其他标注物体组成;3)背景区域,由没有物体标注的空白区域组成。对于每个比较的模型,我们计算每个区域的注视百分比。如表 3 所示,一般来说,性能更高的模型在 ROI 区域生成更多的注视。我们提出的技术(即 TG、SCST、CDL)提高了注视任务相关物体的准确性,使我们的方法在性能上显著优于现有的最先进方法 [4, 5, 40]。我们完整模型对 ROI 的注视百分比与人类相似。此外,人类的正确注视路径比错误的更频繁地注视到 ROI,显示了他们的注意力分配与任务表现之间的关联。我们的方法成功复制了这一关联,而比较的方法未能做到这一点。所提出的技术使我们的模型能够学习到更多的判别特征,更好地区分正确和错误的注视路径。
4.5. 哪种 VQA 模型最有效?
我们方法中明确使用 VQA 模型,使我们能够从人类注意力的角度评估和可视化 VQA 模型,这是之前未曾探索过的。我们评估了四种 VQA 模型的有效性:AiR [12]、UpDown [2]、HAN [37] 和 MLB [29]。图 4 比较了它们在 GQA(test-dev)数据集上的 VQA 准确度、机器注意力准确度(AiR-E [12])以及注视路径预测性能(ScanMatch w/ duration)。如图所示,机器注意力准确度和 VQA 准确度与注视路径预测性能呈正相关。基于物体的注意力图通常更准确,并提供更好的任务指导:AiR [12] 取得了最佳表现,得益于其显式的基于地面真实物体标注的注意力监督。UpDown [2] 计算的是隐式监督的基于物体的注意力,导致在注视路径预测中的表现较差。HAN [37] 依赖于特定问题组的注意力地面真实数据[15],因此在表现上较低且难以泛化。MLB [29] 基于图像特征,因此其空间注意力图可能未能突出物体,导致表现最差。
总而言之,我们的方法表明,一个设计良好的机器注意力机制不仅能够提高 VQA 模型的表现,还能促进人类注意力预测。它还使得进一步的关于人类和机器注意力机制的相关性研究成为可能。
5. 结论
我们提出了第一个用于预测视觉问答(VQA)过程中人类注视路径的模型。通过显式地整合任务指导图,模型学会预测一系列任务驱动的注视路径,这些路径能够引导正确或错误的答案。为了解决曝光偏差问题,我们提出了一种 SCST 方法,通过注视路径评估指标和一致性-差异损失(Consistency-Divergence loss)优化模型,从而区分正确和错误的注视路径。我们的实验表明,我们的方法在多个数据集和任务上显著优于当前的最先进方法。
实验结果表明,我们的模型能够预测类似人类的注视路径,并揭示决定任务表现的关键注视模式。通过提高人类注视路径预测的性能,我们的研究推动了任务驱动注意力研究的进展,并促进了智能机器人、自动化设计和广告系统、人机交互系统以及心理健康诊断工具等领域的应用发展。