当前位置: 首页 > news >正文

牛马阅读《SpFormer: Spatio-Temporal Modeling for Scanpaths with Transformer》

#1024程序员节 | 征文#

Abstract

        saccadic scanpath(扫视路径)是人类视觉行为的数据表示,在多个领域受到了广泛关注。扫视路径是一种复杂的眼动追踪数据形式,包括注视位置序列和注视持续时间,结合了图像信息。然而,以前的方法通常面临注视特征的空间错位问题以及关键时间数据的丢失(包括时间相关性和注视持续时间)。在本研究中,我们提出了一种基于Transformer的扫视路径模型SpFormer,以缓解这些问题。首先,我们提出了一种以注视为中心的范式,以提取对齐的空间注视特征并对扫视路径进行标记。然后,依据视觉工作记忆机制,我们设计了一种局部元注意力,以减少注视的语义冗余,并引导模型关注元扫视路径。最后,我们逐步整合持续时间信息,并将其与注视特征融合,以解决随着Transformer块的增加而出现的位置模糊问题。我们在四个数据库上进行广泛实验,涵盖三个任务。SpFormer在不同设置中建立了新的最先进结果,验证了其在实际应用中的灵活性和多样性。代码可以从https://github.com/wenqizhong/SpFormer        

Introduction 

        人类视觉系统(HVS)在感知中起着至关重要的作用,它接收和处理人类所感知的大多数信息。人类的视觉行为提供了对HVS潜在机制的宝贵见解。全面理解人类视觉可以极大地促进各种下游任务,例如显著性预测(Liu et al. 2015; Huang et al. 2015; Wang et al. 2019)、显著物体检测(Han et al. 2018; Fan et al. 2021)、扫视路径预测(Xia et al. 2019)、分割(Lang et al. 2022)、焦点检测(Zhang et al. 2022)以及辅助诊断(Liu, Li, and Yi 2016; Xia et al. 2022)。用于表示人类视觉行为的两种主要数据类型是显著性图和扫视路径。显著性图通常表示一组的静态空间注意力分布概率,而扫视路径则通常描绘个体的时空注意力分布。因此,扫视路径非常适合在各个领域进行个体层面的分析和预测(Xia et al. 2022; Dalrymple et al. 2019; Mohammadhasani et al. 2020)。

这张图片展示了两种不同的视觉追踪路径:Scanpath和Meta Scanpath。这些路径通常用于研究人们在观看图像时的视线移动模式。

  • Scanpath (s):指的是观看者在图像上的视线移动路径。图中用橙色的线和星星标记表示,显示了观看者在图像上关注的位置和顺序。

  • Fixation Position (f):指的是观看者在图像上停留注视的位置,通常用星星标记表示。

  • Fixation Duration (d):指的是观看者在某个位置停留注视的时间,图中用粉色的圆圈表示,圆圈的大小可能与注视时间的长短有关。

图片中展示了三组不同的场景,每组场景都有对应的Scanpath和Meta Scanpath。Meta Scanpath可能是对多个观看者的Scanpath进行汇总或分析后得到的平均或典型路径。

        扫视路径是一种独特而复杂的数据模态,但现有的扫视路径方法往往忽视了其复杂性。扫视路径是由注视位置和相应的注视持续时间组成的多元时间序列(见图1)。此外,扫视路径与激发注意行为的图像刺激密切相关。总体而言,扫视路径的复杂特性可以总结为三个关键方面:1)扫视路径表示为多元时间序列;2)扫视路径的每个时间步骤由一对注视位置和注视持续时间组成;3)扫视路径与相应的图像刺激之间存在耦合关系。

第三点的意思是,扫视路径(即眼睛的移动轨迹)与观看的图像刺激之间是相互关联的。具体来说,眼睛在观察图像时,扫视路径不仅受图像内容的影响,还会影响观众对图像的理解和反应。这种耦合关系意味着,观众的注视点和注视时间会根据图像的特征(如颜色、对比度、形状等)而变化,同时这些注视行为也可能影响他们如何处理和记忆图像中的信息。

        然而,之前基于扫视路径的模型并没有全面考虑上述特性。一般来说,医学和心理学领域的现有方法通常基于手工特征进行统计分析,例如,不同区域的注视比例(Jones和Klin 2013)。在计算机领域,近年来逐渐出现了基于学习的扫视路径模型(Jiang和Zhao 2017;Dalrymple等人 2019;Rahman等人 2021)。

        然而,这些方法在完全建模上述扫视路径特性方面显得不足和弱小。因此,这些模型面临注视特征空间错位、忽视时间关联和注视持续时间等问题,无法为下游任务提供有效的扫视路径表示。为了实现更强的表示,模型应结合特定的归纳偏置,以有效捕捉扫视路径的时空结构。

        为此,我们提出了一种新颖的模型——SpFormer,遵循一种新的方法:提取空间注视特征、建模注视的时间相关性并整合注视持续时间。具体来说,

        我们首先引入了一种注视中心化的范式,通过裁剪每个注视周围的图像区域来对扫视路径进行标记,并提取空间上对齐的注视特征,以消除语义偏差。

        然后,为了建模注视之间的时间相关性,我们引入全局时间相关性和时间掩码,以重建注视的因果关系并消除伪相关性。

        更重要的是,我们构建了局部元注意力,旨在减少注视的语义冗余。扫视路径的生成受视觉工作记忆(VWM)机制的控制(Epelboim 和 Suppes 2001),这意味着每次只能存储少量局部注视,这就是我们所称的元扫视路径(见图1)。VWM机制由于有限的记忆容量,减少了存储注视之间的语义冗余。然而,典型的全局自注意力可能忽略这种局部特性,导致训练过程缓慢和性能下降。因此,我们开发了局部元注意力,以捕捉每个时刻存储注视之间的相关性。受到VWM机制的启发,局部元注意力过滤冗余注视和视觉噪声,使模型能够更有效地集中注意力于元扫视路径。我们还引入了一种一致性损失,以确保不同注视的元注意力与元扫视路径保持一致。

        另一方面,我们将注视持续时间的线索整合到模型中,以实现全面的扫视路径表示。我们观察到,先前的方法通常忽略了注视持续时间,导致信息融合不完整(Liu, Li, and Yi 2016; Jiang and Zhao 2017; Xia et al. 2022)。注视持续时间往往提供了注视视觉分配的额外线索,并有助于过滤背景噪声。基于这一观察,我们进一步利用注视持续时间来调整注视特征的权重。不幸的是,随着Transformer模块的增加,时间位置变得模糊。为了解决这个问题,我们提出了一种逐步衰减机制,将权重从明显转变为模糊,以适应逐渐模糊的位置。

        为了解决这一问题,我们提出了一种渐进衰减机制,将权重从明显过渡到模糊,以适应逐渐模糊的位置。我们进行了全面的实验,以评估SpFormer的性能。我们还探讨了所提出模型在四个数据库中的可行性和泛化能力,涵盖自闭症谱系障碍(ASD)识别、幼儿年龄预测和视觉感知任务预测的三个任务。我们的主要贡献可总结如下:

  • 我们总结了扫视路径模态的复杂特性,并提出了一种新的扫视路径感知Transformer,以捕捉扫视路径的时空特性。
  • 我们提出了局部元注意力,引导模型关注局部注视,并根据VWM机制减少语义冗余。此外,我们逐步将注视持续时间聚合到注视特征中。
  • 我们设计了一种注视中心范式来标记扫视路径,并解决注视与提取的注视特征之间的空间错位问题。
  • 我们在三个领域进行了全面的实验,使用四个数据集。结果显示,SpFormer在四个基于扫视路径的实际任务中达到了新的最先进性能。

         Related Work

Scanpath-based Application

        扫视路径是一种数据表示形式,提供了对人类视觉行为的洞察,记录了眼动仪捕捉到的眼动情况。扫视路径在多个领域中得到了广泛应用,包括医疗保健(Xia et al. 2022; Marsh and Williams 2006; Mohammadhasani et al. 2020)、医学教育(Kok and Jarodzka 2017)、人机交互(Piumsomboon et al. 2017)、教育、辅助驾驶、选择建模、消费者心理学和市场营销(Klaib et al. 2021)。扫视路径的应用范式大致可以分为两个方面。首先,研究了年龄、性别、神经发育和视觉任务等多种因素,以理解组间差异(Xia et al. 2022; Mastergeorge, Kahathuduwa, and Blume 2021)。因此,许多研究集中于对不同组的分类,例如自闭症谱系障碍(ASD)患者与典型发育个体。其次,扫视路径分析已被应用于研究群体内个体的视觉行为,以进行后续应用。例如,扫视路径被用于分析医疗专业人员的视觉专长,并开发智能决策系统。

Transformer

        Transformer(Vaswani et al. 2017)被提出用于自注意力机制,以覆盖长距离依赖关系。它在几乎所有自然语言处理(NLP)任务中迅速达到了最先进的性能(Devlin et al. 2018; Clark et al. 2020)。例如,Transformer被成功应用于GPT系列模型(Radford et al. 2018),如Chat-GPT。最近,Transformer架构在图像和视频领域得到了进一步扩展,并在多种任务中展现出先进的性能,包括图像识别(Dosovitskiy et al. 2020)、目标检测(Carion et al. 2020)、语义分割(Strudel et al. 2021; Zheng et al. 2021)、视频识别(Bertasius, Wang, and Torresani 2021; Arnab et al. 2021)和超分辨率(Yang et al. 2020)。例如,Dosovitskiy等人提出了视觉Transformer(ViT),采用无卷积架构替代传统的CNN,并引入自注意力机制(Dosovitskiy et al. 2020)。该模型能够捕捉图像分类中的全局特征和关系,并在多个基准数据集上取得了强劲的表现。Transformer自然适合建模时间序列数据(Kim et al. 2022; Wang et al. 2022)。在本研究中,我们使用Transformer架构来捕捉复杂数据模态的时空关联性。

 Methodolog(方法论)

 

理解一下SpFormer架构以及论文知识点-CSDN博客

Aligned Spatial Fixation Feature Acquisition(对齐空间固定特征采集)

        我们首先使用空间注视特征对扫描路径进行标记。然而,以前的方法通常提取整个图像特征,并在下采样特征上选择注视特征(Jiang 和 Zhao 2017)。具体来说,给定一幅图像 III,使用卷积神经网络(CNN)作为主干网络来获得图像特征图 F1,如下所示:

Fixation Temporal Correlation(固定时间相关性)

        研究表明时间线索在扫描路径中的重要作用,用于对视觉注意和后续任务进行建模(Sun、Chen 和 Wu 2019)。然而,以前的研究通常忽略了时间相关性,只关注注视位置线索。因此,将扫描路径的时间相关性集成到模型中是一个重要的主题,尚未彻底讨论。

Global Temporal Attention(全局时间注意力)

        传统的 Transformer 采用自注意力机制,计算所有配对标记的相关性,以捕捉当前特征之间的全局关系。然而,当前的注视标记仅受到前一个注视标记的影响,而不受后续注视标记的影响。这种时间因果关系与典型任务(如图像分类和检测)不同,在这些任务中,不同的标记之间缺乏时间因果关系,可以建模任意标记之间的相关性。因此,我们添加了一个简单的时间掩码 MMM 来建模时间因果关系,公式可以表示为:

Local Meta Attention(局部元注意力)

        扫描路径的生成受视觉工作记忆(VWM)机制控制,该机制负责在认知系统中临时存储和处理视觉信息(Ungerleider, Courtney, and Haxby 1998)。然而,VWM 的容量有限,通常每次只能存储少量的局部注视(大约 3-4 个视觉项目)(Luck 和 Vogel 1997),我们称之为元扫描路径。此外,扫描路径通常是较长的序列,可能会受到视觉行为随机性的影响,从而产生噪声注视。因此,我们提出寻找具有辨别能力的元扫描路径,以实现压缩表示。具体而言,我们首先嵌入查询向量和键向量,以获得可学习的矩阵,公式如下:

 

Progressive Duration Aggregation(渐进持续时间聚合)

 

Training and Inference (训练和推理)

 

Experiment 

        在本节中,我们在三个不同的任务(包括 ASD 识别、幼儿年龄预测和视觉感知任务预测)下进行了实验,以验证 SpFormer 的泛化性和有效性。

        自闭症谱系障碍(ASD)识别

ASD 识别在眼动追踪中是一个关键应用,因为它可以实现对婴儿的早期检测,并提供一种客观高效的评估方法。我们使用两个数据集,即 Saliency4ASD 数据集(Duan et al. 2019)和我们收集的数据集,来评估 SpFormer 在 ASD 识别中的表现。Saliency4ASD 数据集收集了 14 名 ASD 儿童和 14 名典型发展(TD)儿童的数据。所有受试者观看了 300 张图片,每张图片播放 3 秒。这 300 张图片选自 MIT1003 数据集(Judd et al. 2009)。对于我们的数据集,我们从医院招募了 58 名年龄在 2 到 8 岁之间的受试者以收集眼动追踪数据,其中包括 30 名 ASD 儿童和 28 名 TD 儿童。

        基线:为了进行全面比较,我们采用了基于显著性的模型进行对比。同时,我们也遵循(Rahman et al. 2021)的研究,分别报告 HoG、Gist 和 VGG16 的性能。

        评估指标:按照之前的研究(Chen 和 Zhao 2019),我们报告基于单个扫描路径的分类性能的扫描路径结果。我们还提供了基于受试者的结果,因为 ASD 识别的最终目标是获得特定受试者的评估。与之前的工作一致(Chen 和 Zhao 2019),我们计算受试者的概率 p(c),即在所有图像中均等地求和扫描路径结果。

        主要结果:表1和表2展示了不同方法在评估指标下的实验结果。部分结果遵循(Wei et al. 2021)和(Rahman et al. 2021)。可以发现,我们的SpFormer在很大程度上超越了先进的模型,并设立了新的最先进水平。在基于主题的结果中,SpFormer在AUC、敏感性、特异性、BA和准确率方面,在0.5的阈值下达到了100%的性能。我们在Saliency4ASD上比之前最好的结果提高了0.0714的AUC和10.67%的准确率(0.5阈值)。此外,我们观察到APM和CETS,它们捕捉时间线索,与没有时间建模的模型相比,有明显的性能优势。我们的方法在敏感性和特异性之间取得了平衡的结果,与其他方法相比。至于我们的数据集,SpFormer在大多数扫描路径结果下的指标中获得了最佳性能,并在所有基于主题的结果指标中显著超越了最佳竞争对手。这表明SpFormer在图像之间的结果更加一致。与之前最好的结果相比,SpFormer将敏感性从76.50%提高到89.29%,准确率(0.5阈值)从86.90%提高到93.14%。

表1:在Saliency4ASD数据集上的性能比较,通过AUC、敏感性(Sen.,分类阈值为0.5)、特异性(Sen.,分类阈值为0.5)、平衡准确率(BA)以及在三个分类阈值(即0.4、0.5和0.6)下的准确率进行衡量。“avg.”表示在三个分类阈值下的平均准确率表现。加粗的结果显示了最佳性能,而下划线表示第二佳。箭头表示指标性能提升的方向。“*”、“+”和“ $\div$ ”分别表示不同的实现方式。

  • AUC(Area Under the Curve):衡量模型整体性能的指标。
  • Sen.(Sensitivity,敏感性):正确识别正类样本的能力,分类阈值为0.5。
  • Spe.(Specificity,特异性):正确识别负类样本的能力,分类阈值为0.5。
  • BA(Balanced Accuracy,平衡准确率):敏感性和特异性的平均值,用于处理不平衡数据集。
  • Accuracy(准确率):在不同分类阈值(0.4、0.5、0.6)下的正确分类比例。
  • avg.(平均值):在三个分类阈值下的平均准确率。

表格中的结果分为两部分:基于扫描路径的结果(Scanpath-Wise)和基于个体的结果(Subject-Wise)。每个方法的性能用上述指标进行评估,其中加粗的数字表示在该指标下的最佳性能,下划线的数字表示第二佳性能。箭头表示性能提升的方向,即箭头指向的数值越大表示性能越好。此外,表格中还使用了不同的符号(如“*”、“+”、“ $\div$ ”)来表示同一方法的不同实现版本。

表2:在我们收集的数据集上进行的ASD识别任务的比较结果。

  1. 基于扫描路径(Scanpath-Wise)

    • APM方法在AUC、敏感性、特异性和平衡准确率方面表现最好,但在不同阈值下的准确率方面,SpFormer在0.5和0.6阈值下表现更好。
    • SpFormer在平均准确率上略高于APM,表明其在不同阈值下的性能更为均衡。
  2. 基于个体(Subject-Wise)

    • SpFormer在所有指标上都显著优于其他方法,包括AUC、敏感性、特异性、平衡准确率以及在0.4、0.5和0.6阈值下的准确率。
    • SpFormer的平均准确率也最高,达到了0.8561,远高于DoF和APM方法。
  3. 总体表现

    • SpFormer在两种结果类型(基于扫描路径和基于个体)中都显示出了优异的性能,尤其是在基于个体的结果中,其在所有评估指标上都达到了最高分。

消融研究

我们在Saliency4ASD数据集上进行了系列消融研究,并报告了每个受试者的结果。

ASF的有效性。 首先,我们考虑对齐的注视特征。我们用之前典型的未对齐特征(Chen和Zhao 2019)替换对齐的注视特征。正如表3中的结果(a)和(b)所示,我们的方法在使用对齐的空间注视特征时表现出显著改善,尤其是在0.5阈值下,准确率提高了15.67%。

时间相关性的有效性。 然后,我们用普通的Transformer替换所提出的时间建模来进行消融研究。比较表3中的(c)和(d),我们可以得出结论,所提出的时间相关性在AUC上取得了显著的性能提升,从0.8901提高到0.9835,进一步证明了时间掩码和元扫描路径在因果建模中的重要性,以及在减少语义冗余和视觉噪声方面的作用。

PDA的有效性。 此外,我们在每个Transformer块后插入PDA,以逐步融合持续时间并增强扫描路径特征,相比于未融合持续时间信息的模型,取得了3.333%的准确率提升,这基于表3中(c)和(d)的比较。

 表3:不同设计选择的主要模块的消融研究。“ASF”表示对齐的空间注视特征。“FTC”是注视时间相关性。“PDA”代表渐进式持续时间聚合。

表 4:超参数对 Saliency4ASD 的影响。

表 5:TAP 基准的比较结果。

幼儿年龄预测

数据集
识别不同年龄组是扫描路径的另一个应用,因为眼动模式随着年龄而变化(Munoz et al. 1998; Davidson et al. 2006; Dalrymple et al. 2019)。为了评估模型在年龄预测中的性能,我们使用了来自(Dalrymple et al. 2019)的幼儿年龄预测(TAP)数据集,该数据集包含37名18个月大的幼儿和36名30个月大的幼儿。刺激材料由来自物体和语义图像眼动追踪(OSIE)数据库(Xu et al. 2014)的100张图像组成,该数据库包含700个图像刺激,具有丰富的属性。

实验设置
我们遵循之前的实验协议(Rahman et al. 2021)。实验设置和训练细节与自闭症谱系障碍(ASD)识别的情况相同,除非另有说明。

主要结果
表5展示了在TAP基准上的比较结果。可以发现,我们的SpFormer在所有指标下都取得了最佳结果,并且在很大程度上超越了之前的方法。SpFormer实现了平均准确率提高11.67%,在0.5阈值下提高了4.5%的准确率,AUC相比之前的最佳结果提高了1.586%。

视觉感知任务预测


数据集
不同的视觉任务可能引发不同的视觉行为,即使在相同的视觉场景下。因此,扫描路径也可以用于识别受试者的视觉任务。之前的方法主要关注视觉行为,没有任何特定指导,称为自由观察。Koehler等人(2014)提出了一个视觉感知任务(VPT)数据集,包含800张自然图像和四种视觉任务:自由观察、明确的感知判断、显著性搜索和提示物体搜索任务。

实验设置
遵循实验形式(Rahman et al. 2021)和(Boisvert and Bruce 2016),我们将数据集分为一系列二分类,以对每两个视觉任务进行分类。为简单起见,我们选择自由观察和提示物体搜索任务来报告结果。实验设置和训练细节与自闭症谱系障碍(ASD)识别的情况相同。

主要结果
表6展示了在VPT数据集上的结果。可以观察到,SpFormer在性能上优于其他先进方法。具体而言,我们的模型在AUC上达到了0.9974,在0.5阈值下准确率提高了11.15%。这些发现证明了我们所提出的SpFormer的优越性。

 

表6:VPT数据集的比较结果

 Conclusion

        本文提出了一种新的模型SpFormer来模拟扫描路径的时空特征。对于空间信息的建模,我们提取空间对齐的注视来表示扫描路径。对于时间线索,我们引入了局部元注意来模拟VWM机制,并逐步聚合注视持续时间以增强注视特征。实验结果表明,SpFormer 是有效的,并在多个基于扫描路径的任务上实现了最先进的性能。


http://www.mrgr.cn/news/57778.html

相关文章:

  • 软件架构复用的类型
  • 细说STM32单片机USART中断实现收发控制的方法
  • 电脑技巧:Rufus——最佳USB启动盘制作工具指南
  • CSS - grid制作表格
  • 深入探索路由算法的核心原理与应用
  • 灵活如风:全面掌握动态新增 SQL Server 对象的实用指南
  • 记录如何在RK3588板子上跑通paddle的OCR模型
  • 美畅物联丨构建卓越智慧物联中台的三大核心要素
  • win10安装idk8点击下一步没反应点击下一步闪退,win10安装jdk8失败
  • 蚁剑连接本地木马文件报错
  • Elasticsearch如何搜索日志并存储
  • Spring Boot集成PageHelper分页插件详解---补充
  • AI正在取代程序猿?
  • Nvidia GPU相关
  • 洛谷题解 - P1162 填涂颜色
  • 企业建立质量管理系统的目的是什么?
  • 软件测试面试题600多条及答案
  • QT QGestureEvent支持平移,缩放,旋转触摸板手势
  • IntelliJ IDEA 安装 Maven 工具并更换阿里源
  • Vue2基础实例——实现移动端静态页面(CDN引入方式)
  • The database mes could not be exclusively locked to perform the operation.
  • Claude 3.5全面升级,AI 时代?我将何去何从
  • 六.python面向对象
  • ubuntu系统如何在本地查看服务器上的tensorboard结果
  • Python3入门--数据类型
  • 经典功率谱估计的原理及MATLAB仿真(自相关函数BT法、周期图法、bartlett法、welch法)