当前位置: 首页 > news >正文

【DCCMCI】多模态情感分析的层次去噪、表征解纠缠和双通道跨模态-上下文交互

abstract

多模态情感分析旨在从文本、声音和视觉数据等各种模态中提取情感线索,并对其进行操作,以确定数据中固有的情感极性。尽管在多模态情感分析方面取得了重大成就,但在处理模态表征中的噪声特征、消除模态表征之间情感信息的实质性差距以及探索表达模态之间不同情感的上下文信息方面仍然存在挑战。为了应对这些挑战,本文提出了一个新的多模态情感分析(MSA)框架。

  1. 首先,我们介绍了分层去噪表示解纠缠模块(HDRD),该模块采用分层解纠缠技术。这确保了公共和私人情感信息的提取,同时消除了模态表示的干扰噪声
  2. 此外,为了解决情感信息在模态之间分布不均的问题,我们的多模态表示增强模块(IMRE)通过从文本表示中提取与非文本表示相关的情感信息来增强非文本表示
  3. 接下来,我们介绍了一种新的交互机制,双通道跨模态上下文交互模块(DCCMCI)。该模块不仅挖掘模态内部的相关情境情绪信息,而且还探索模态之间的正相关和负相关情境情绪信息。

我们在MOSI和MOSEI两个基准数据集上进行了广泛的实验,结果表明我们提出的方法提供了最先进的方法。

intro

最初,情感分析涉及使用自然语言处理(NLP)技术从主观文本中提取情感信息,包括观点和感受(Zhang, Xu, & Zhao, 2020)。

然而,Twitter、TikTok和YouTube等社交媒体平台的快速扩张导致了包含多模态信息(包括文本、声学和视觉元素)的视频数据的爆炸式增长(Shi, Fan, Wang, & Zhang, 2022)。传统的基于文本的情感分析现在难以处理这些数据的复杂性,这促使人们对多模态情感分析越来越感兴趣,多模态情感分析从各种模态中提取态度、观点和情感信息(Su & Kuo, 2022)。同时,移动设备的广泛使用不仅有助于捕获来自用户的各种模态情绪线索(Michalis, Vassilis, Nicholas, & Petros, 2019),而且还可以在各种经济和社会部门中应用多模态情绪分析(Wang et al, 2022)。

因此,越来越多的研究人员正在深入研究这个有前途和不断发展的领域。

近年来,深度学习方法主导了多模态情感分析研究,旨在利用多模态数据之间的互补情感信息来构建复杂的深度学习模型(Abdu, Yousef, & Salem, 2021;赵,贾,杨,丁,& Keutzer, 2021)。虽然这些方法在准确性上有所提高,但挑战仍然存在(Zhu, Zhu, Zhang, Xu, & Kong, 2023)。

考虑到文本、声学和视觉表征之间的显著分布差距,有效的表征解纠缠提出了关键挑战。现有方法通过在多模态情感分析中引入域分离来解决这个问题,将表示划分为模态不变和模态特定的子空间,以获得适当的多模态表示(Bousmalis, Trigeorgis, Silberman, Krishnan, & Erhan, 2016;Hazarika, Zimmermann, & Poria, 2020)。然而,每种情态表示不仅包含表达共同和私人情感的信息,而且还包含相当数量的无关噪声,这将大大降低情感分析任务的准确性。因此,挑战在于获得多模态表示,以平衡公共和私人情绪,同时减轻噪音的影响。

多模态情感分析的另一个挑战是情态信息质量的显著差异,导致情态信息在情态表示之间的分布不均匀。为了解决这个问题,经常需要增强表示信息。目前的方法是从非文本模态中提取与文本模态相关的情感信息,以加强文本表示(Wang et al ., 2019)。然而,这种方法并不能完全解决非文本表示中的情感信息稀缺问题。利用来自文本表示的情感信息来增强非文本表示仍然是一个难题。

模态交互带来了另一个挑战,因为多模态数据中的情感信息通常是互补的。通过模态交互探索这些互补的信息片段以生成有效的多模态表示是至关重要的。然而,目前的方法往往忽略了模态之间的负相关上下文信息,尽管它在某些上下文中(如讽刺或传递坏消息)具有潜在的重要性(Vaswani et al, 2017)。有效地关注模式之间的正相关和负相关上下文情绪信息仍然是一项具有挑战性的任务。

针对上述挑战,我们引入了一种新的多模态情感分析(MSA)框架。

首先,我们采用分层解纠缠技术将每个模态的表示投影到模态公共、私有和噪声子空间中。然后对这些陈述进行约束,以确保其适当性。

其次,认识到情态表征之间情感信息的显著差异,我们的目标是利用语篇情态中丰富的情感信息来增强听觉和视觉模态。此外,我们试图挖掘每个模态内部和模态之间的上下文信息,以丰富多模态表示的情感语义。

我们的研究贡献可以概括如下:引入了一种新的多模态情感分析(MSA)框架,解决了多模态情感分析中的关键挑战。通过分层解纠缠、利用文本情感信息和挖掘上下文线索,我们的框架旨在提高多模态情感分析的有效性和准确性。

•我们引入了一个分层去噪表示解纠缠模块,该模块通过表示约束分解模态表示。这允许模态表示结合共性和个性信息,同时消除可能对情感分析任务产生负面影响的噪声。

•我们设计了一个多式联运表示增强模块,以弥合模式之间的差距。该模块从文本表示中提取与声音和视觉内容相关的情感信息,从而弥合文本和非文本模式之间的实质性鸿沟。

•我们引入了一个双通道跨模态上下文交互模块,它利用多种注意机制同时强调模态内部和模态之间互补的上下文情感信息。这种方法能够提取语义丰富的上下文线索。

related work

随着社交网络的广泛采用和深度学习技术的快速发展(Biswas & Tešić, 2022),多模态情感分析已成为多模态领域研究的重点。这种方法利用多种数据源,包括文本、声学和视觉信息,来理解情感(Wu, Lin, Zhao, Qin, & Zhu, 2021)。基于深度学习的多模态情感分析旨在建立多模态数据与情感极性之间的可靠映射,这一任务依赖于多模态数据的有效融合。现有的研究根据其融合方法可大致分为注意无关方法和基于注意的方法。

注意力无关方法

这些早期的方法包括Zadeh、Chen、Cambria、Poria和Morency(2017)提出的TFN,利用笛卡尔积融合模态表征。针对TFN的复杂计算,Liu等(2018)提出LMF,利用低秩张量简化计算复杂度。随着特征融合技术的发展(Yu, Yu, Fan, & Tao, 2017),研究人员尝试对表征进行分解和再融合,旨在通过因子分解学习更有特色的表征(Chen, Shen, Ding, Deng, & Li, 2024)。例如,Wang, Yan, Lee和Livescu(2016)使用深度变分CCA重新分析了LVMS,获得了包括私有变量和共享变量的模态变量。Rajagopalan、Morency、Baltruaitis和Goecke(2016)提出的v -LSTM网络使用多视图LSTM块在多个模态之间建模一致和互补的信息。Tsai、Liang、Zadeh、Morency和Salakhutdinov(2018)设计的MFM模型将多模态数据的联合表示分解为模态内相关性和模态间相关性。Hazarika等人(2020)提出了MISA框架,该框架使用不同的编码器从模态不变和模态特定的角度学习模态表示。虽然这些方法确实在一定程度上提高了情感预测的准确性,但不相关噪声的存在会显著影响模型的性能。这是因为缺乏情感信息的噪音往往会干扰情感分析。此外,对模式内部和模式之间的上下文相互作用信息重视不够。

基于注意力方法

这些方法使用各种注意机制(Li, Cai, Dong, Lai, & Xie, 2023)来实现模态间和模态内的信息交互,以获得更有效的多模态表示(Xiao et al ., 2021)。在MARN模型中,Zadeh, Liang, Poria等(2018)使用多个注意块来获取不同的跨模态情绪上下文,并将其存储在混合记忆块中。Ou, Chen和Wu(2021)在MMLGAN模型中提出了一个多模态局部-全局注意网络,以融合来自不同模态的表征。Transformer (Vaswani et al ., 2017)最初是为机器翻译开发的,因其在序列数据建模上下文中的独特优势而受到关注。研究人员已经探索了它在各个领域的应用。Tsai等(2019)利用MulT对不同时间步长的多模态序列进行交互和融合。Chen, Hong, Guo和Song(2023)提出了TCDN框架,利用三模态协作网络获取模态内和模态间的上下文情感信息,同时消除模态之间的不相关特征。Wang, Guo等(2023)提出了TETFN,通过文本引导的跨模态映射获得模态间一致的交互信息。Tang, Liu等(2023)提出了BAFN网络,使用动态增强块和双向注意块来探索模态内情绪情境和模态间更高级的情绪情境。Wang, Tian等(2023)提出了TEDT框架,该框架通过基于transformer的模态增强模块,将非语言模态转换为语言模态,同时过滤掉模态之间的错误信息。然而,在获取跨模态交互信息的过程中,上述研究往往侧重于获取表达模态间相似情感的语境信息,而忽略了表达差异情感的语境信息。此外,模式之间的不平衡对跨模式上下文交互的质量提出了重大挑战

获取跨模式交互信息的问题

一些研究人员正试图解决由于不同模式之间的情感差异而导致的不良情境互动问题。Wang等人(2019)提出的RAVEN模型利用跨模态注意将相关非言语信息与语言表征相整合。Rahman等人(2020)的MAG模型使用声学和视觉表示作为辅助特征,微调文本表示在情感空间中的位置。然而,上述研究往往利用非文本模式,以情感信息丰富文本表征。然而,情绪贫乏的非语篇模态对跨模态语境互动的影响一直被忽视。

为了解决这些问题,我们提出了一种新的多模态情感分析方法。通过两轮分解,我们利用分层解纠缠技术将模态表示分解为公共、私有和有噪声的表示。不同的损失函数约束了这些表征,使得学习包含共性、个性和噪声方面的模态表征成为可能。随后,我们通过情感关联挖掘网络从文本表示中提取相关情感信息,从而增强声音和视觉表示。此外,我们利用双通道概念,在完成对模态内语境信息的探索后,同时探索两个通道内模态间正相关和负相关的语境信息。

方法

在本节中,将对所提出的模型的各种结构进行全面的探索。模型总体结构如图1所示,主要包括Feature Extraction模块、HDRD模块、IMRE模块、DCCMCI模块和Sentiment Prediction模块五个部分。将多模态原始数据分为文本模态数据、声学模态数据和视觉模态数据,然后将这些数据输入特征提取模块,获得包含时间和特征信息的三种模态表示。

在HDRD模块中,每个模态的表示都经过了分层表示解纠缠技术,可以学习表示中的公共和私人情感,同时消除与情感无关的噪声。在IMRE模块中,利用去噪后的文本表示来增强非文本表示,从而丰富嵌入在这些非文本表示中的情感信息。

在DCCMCI模块中,该过程首先使用多头自注意来提取每个模态的上下文情感信息。随后,使用双通道机制分别提取模态之间的情境正相关和负相关情绪信息。最后,将挖掘到的各种情感信息与模态表示进行融合。这涉及到连接情态表示,每个情态表示都融合了各种情感信息,以获得具有丰富多模态语义交互的完整多模态表示。这个结果表示然后传递给情绪预测模块,产生最终的多模态情绪预测结果。

任务设置

在基准数据集中,每个包含视频帧集合的视频片段都被分配了一个整体的情感标签。因此,我们构建了一个利用视频片段中的文本、声学和视觉信号来检测情感信息的模型。从每个视频片段中提取不同模态的特征作为模型输入

特征提取模块

在本节中,我们将详细解释特征提取模块,其中对每个模态的原始数据进行处理,以提取各自模态的特征和时间信息。

特征信息

传统的文本特征表示方法往往难以利用上下文信息来区分一词多义。为了克服这一挑战,我们采用了最近成功的预训练语言模型,特别是利用包含12个transformer的BERT模型从视频片段的转录本中提取文本特征。每一层都包含一个有12个头的多头注意机制和一个前馈神经网络。该模型能够熟练地捕获双向上下文信息,生成充满丰富情感信息的句子表示。根据以往的经验,我们从最后一层选择初始词向量作为文本表示。

对于声学模态,我们对每个视频片段对应的音频数据进行采样和帧,并从每个音频帧中提取音调和频谱特征,如过零率、Mel-Frequency倒谱系数(MFCCs)和常q变换(CQT)。大量证据表明,这种声音表现与说话者的情绪密切相关。

在视觉形态方面,面部信息,包括表情、头部运动和眼睛方向,包含了丰富的情感线索。因此,我们利用OpenFace 2.0来识别每个视频帧中的面部线索,并通过基于平均池的帧下采样来减少数据量。这种方法允许我们获得一组有序的音频和视觉特征,这些特征对应于包含视频帧集合的每个视频片段。然后将这些特征输入LSTM网络以获取时间信息。

时间信息

BERT模型提取的文本表示固有地包含时间信息,从而避免了额外操作的需要。然而,提取的声音和视觉表示缺乏时间信息。因此,我们通过Bi-LSTM网络处理这些表示以获得时间信息。公式(1)中概述的操作会产生768维的文本表示、16维的声学表示和32维的视觉表示。

分层去噪表示解纠缠模块HDRD

在特征提取之后,我们使用HDRD模块获得包含公共和私人情感信息的模态表示,同时排除噪声。如图2所示,HDRD模块主要由两层结构组成。第一层是共同情感学习层,包括一个共同编码器,旨在学习能够表达模态之间共同情感的表示。第二层是私人情感学习层,其特征是一个私人编码器,其任务是通过学习能够在模式之间表达私人情感的表示来解决模式中的噪声问题

Q:什么是共同情感学习层什么是私有情感学习层?

A:共同情感学习层是C,这一层的目标是识别和编码跨所有模态共有的情感。这涉及到一个共同编码器,它从不同类型的输入数据中提取出现在不同模态中的一般化情感特征。

私有情感学习层是P,这一层旨在捕捉并隔离不跨模态共享的独特情感特征。这通过一个私有编码器完成,该编码器识别并隔离特定于每种模态的独特情感特征。

我们的目标是改进这些表示,确保公共表示是同质化的,私人表示是多样化的,并且噪声表示是最小的。这个过程的目的是在减少噪音的同时保留不同的情感信息。最后,我们将公共表示和私有表示合并成一个新的模态表示。

共同情感学习层

在共同情感学习层中,中心组件是共同编码器,如公式(2)所示。共同编码器允许我们推导每个模态的共同表示。

其中表示由完全连接的层组成的公共编码器,它使用相同的参数集去提取每个模态的公共表示,𝑛∈{𝑡,𝑎,𝑣}。

接下来,如公式(3)所示,我们将介绍共同情感学习层的具体过程。我们将模态表示分解为常见表示和非常见表示,促进了从模态表示中分离非常见表示。

其中,共同表示包含表达各种模式之间共同情感的信息。然而,非常见表示对于情感分析并非完全无用;它包括反映模态之间私人情绪的信息。这个信息对于预测讽刺的情绪特别有帮助,比如讽刺,𝑛∈{𝑡,𝑎,𝑣}。

私人情感学习层

在私有情感学习层中,主要组件是私有编码器,如公式(4)所示。利用私有编码器使我们能够获得每个模态的私有表示。

其中示由完全连接的层组成的私有编码器,并且在提取每个模态的私有表示时分配一组唯一的参数,𝑛∈{𝑡,𝑎,𝑣}。

私人情感学习层的详细过程如公式(5)所示,其中非常见表示变量包含了对情感分析有积极贡献的模态之间的私人情感信息。因此,我们将非常见表示(representation)分解为私有表示(private representation)和噪声表示(noise representation)。随后,我们将有噪声的表示从非常见表示中分离出来。

其中,私人代表包含信息表达各种形式之间的私人感情。另一方面,带有噪声的表示(表示)不包含任何情感信息,例如混沌背景和变化的噪声。我们认为这些信息对情绪分析没有正向影响,𝑛∈{𝑡,𝑎,v}。

最后,如公式(6)所示,将公共表示和私有表示合并为一个新的模态表示

Q:简述一下HDRD的工作原理

A:

  • 特征提取:起初,每种模态的特征(Ft,Fa,Fv)通过各自的编码器(文本使用Bert,视频和音频使用BiLSTM)进行处理,如公式1,得到Fn
  • 共同情感特征提取(Cn):使用共同编码器,模型从每种模态的表征中提取共同情感特征。如公式2,得到Cn
  • 分解(Fn):随后,每种模态的表征被拆分为共同部分Cn和非共同部分(即私有和噪声部分)Func,通过Fn - Cn得到Func,如公式3
  • 私有和噪声情感分离(Pn,Nn):独特的表征Func进一步处理,以通过私有编码器从噪声数据中分离私有情感Pn,如公式4,再用Func - Pn得到无用的噪声特征Nn
  • 重新组合成新的模态标准(Fh):最后,噪声被过滤出去了,共同和私有表征结合,形成新的、增强的模态标准:Fh = Cn + Pn

约束条件

我们定义了几个约束来确保学习到的公共、私有和噪声表示的有效性

共同损失表示各种形式之间共同表示的差异。该值越小,学习到的共同表征越具有代表性。因此,在我们的工作中,我们使用欧几里得距离(ED)来评估两种表示之间的差异。它测量欧几里得空间中两个向量之间的直线距离,表示连接这两个向量的直线的长度。我们计算任意两个模态的共同表示之间的欧几里得距离之和作为共同损耗。如式(7)所示:

共同损失越小,表明不同模态之间的共同情感表示越一致。

私有损失用于度量各种模态私有表示之间的冗余。这种损失可以评估模型是否已经学习了可以捕捉模态的私人情感的私人表征。我们使用正交性约束来计算这个损失。假设A和B是两个表示矩阵,它们的行是私有表示向量。正交性约束可以表示

是Frobenius范数的平方。

OC的值越小,表示A和B的两种表示越正交,表示A和B的差异越大。如式(8)所示,我们计算任意两种模态的私有表示之间的软正交性约束之和作为私有损失。

如果γ_p值较小,说明不同模态的私有表示之间相互独立性好,正交性高。

噪声损失用于评估噪声表示的大小,该值越小,噪声表示中存在的噪声越少。我们使用L2范数的平方(‖∗‖22)。如式(9)所示,我们计算每个模态的噪声表示的L2范数的平方和作为噪声损失。算法1阐述了具体的分层去噪表示解纠缠策略。

Q:逐句解读一下这个算法

A:

这个算法展示了分层去噪表示解耦模块(HDRDM)的步骤,目的是处理输入的模态表征,并输出去噪的模态表征。下面逐行解读这个算法:

  1. 算法开始循环:从k=1End,循环多次训练,End通常代表总的训练周期数。

  2. 遍历数据批次dataloader是用来迭代训练数据批次的工具。这里一次处理一个批次的数据。

  3. 遍历每种模态:对每个批次数据,处理三种不同的模态:文本(t)、声学(a)、视觉(v)。

  4. 计算共同表征:使用公式(2),从每种模态的输入特征中计算共同表征Cn。共同表征反映了跨模态共有的情感特征。

  5. 计算非共同表征:使用公式(3),计算除了共同部分外的剩余表征,这部分包含了私有和噪声信息。

  6. 计算私有表征:使用公式(4),从非共同表征中分离出私有情感表征Pn,这部分反映模态特定的情感信息。

  7. 计算噪声表征:使用公式(5),从非共同表征中分离出噪声部分Nn

  8. 计算去噪模态表征:使用公式(6),将共同表征和私有表征结合,形成去噪的模态表征,这部分用于后续的情感预测。

  9. 结束模态循环:对每种模态执行完所有计算后,结束当前批次的模态循环。

  10. 计算共同损失:使用公式(7),计算共同表征之间的一致性损失,确保不同模态的共同情感表征尽量相似。

  11. 计算私有损失:使用公式(8),评估私有表征之间的独立性,通过增加表征之间的正交性来实现。

  12. 计算噪声损失:使用公式(9),测量从每种模态中分离出的噪声量,目标是尽可能减少噪声影响。

  13. 结束批次循环:完成一个批次的所有计算后,结束循环,准备处理下一个批次。

  14. 算法结束:当所有批次的数据在所有训练周期内都被处理完毕后,算法结束。

通过这一系列步骤,模型能够有效地从各种模态的原始数据中提炼和优化情感表征,使其更适合进行精确的情感分析和预测。

多式联运表示增强模块IMRE

在多模态数据中,文本模态比听觉模态和视觉模态包含更丰富的情感信息。因此,在IMRE模块中,我们使用从HDRD模块获得的文本表示来增强声学和视觉表示,解决声音和视觉表现中缺乏情感信息的问题。图3为IMRE模块的具体结构,主要由TEA和TEV组件组成。TEA接收文本和声音表示作为输入,而TEV接收文本和视觉表示作为输入。如公式(10)所示,我们通过将文本表示与声音和视觉表示连接起来来启动该过程,得到。然后,我们使用它们生成两个增强因子

其中𝑚∈{𝑎,𝑣},为网络参数,RELU为非线性激活函数,L为全连接层网络。这些增强因子从文本表示中提取情感信息,以增强声音和视觉表示。

然后,如式(11)所示,我们将各自的增强因子融合到各自的情绪向量中,得到用于增强声学和视觉特征的情绪向量,分别为

其中𝑚∈{𝑎,𝑣},为网络参数,L为全连接层网络

Q1:没看懂这个公式

A1:

  • 公式(10) - 提取增强因子: 其中m ∈ {a, v}代表声学和视觉模态。这里使用了RELU激活函数和全连接层L来从处理过的文本表示Ft^h中提取增强因子ωm。这些增强因子旨在捕获文本数据中的情感信息,用以增强其他模态的情感表达能力。

  • 公式(11) - 混合和增强模态表示: Fm是增强后的模态表示,Fm^h是原始的模态表示(声学或视觉)。这一步骤通过将增强因子与原始模态表示结合,进一步强化了声学和视觉模态的情感特征。

Q2:这个θm是固定的吗?如果只是一个参数的话为什么他也有模态的区分

A:

参数 θm​ 在IMRE模块中代表着针对每种模态(声学和视觉)特定的网络参数,这些参数用于处理相应模态的数据。这些参数不是固定的,而是在模型训练过程中通过学习得到优化。理由和细节如下:

为何 θm​ 需要模态区分

  1. 模态特异性:虽然声学和视觉模态都可以表达情感,但它们的表达方式和特征类型大不相同。声学数据(例如声音的频率和节奏)和视觉数据(例如图像的颜色和形状)需要不同的处理方式来提取有效的情感信息。因此,针对每种模态设计特定的参数可以更好地适应和优化每种数据类型的处理。

  2. 优化表示:通过对每种模态使用专门的参数 θm​,可以确保在提取增强因子 ωm 和计算增强后的模态表示 Fm​ 时,能够最大限度地捕获每种模态独有的情感和特征。这种方式有助于提高模型在特定模态上的表现和准确性。

  3. 灵活性和泛化能力:使用独立的模态参数允许模型更灵活地调整到不同的数据特征和任务需求,同时也可能提高模型对于新数据的泛化能力。

训练和调整 θm

  • 在训练过程中,θm 会通过反向传播和梯度下降等优化算法进行调整。这意味着,随着模型在训练数据上的学习,这些参数会不断更新,以最小化损失函数,例如减少预测错误。
  • 为每种模态设置独立的参数也意味着可以更细致地调整模型,对不同的数据特征进行更为精确的学习和适应。

总之,θm​ 的存在和设计是为了让模型能够更有效地处理和融合不同类型的模态数据,实现在多模态情感分析中的最优表现。通过模态特定的参数优化,IMRE模块能够充分利用文本数据的丰富情感信息来增强其他模态,提高整体分析的精度和效果。

最后,如公式(12)所示,我们将声学和视觉表征与情感向量进行连接和融合,以获得新的声学和视觉表征的 𝑎和 𝑣。为了保证情感向量保持在一个理想的范围内,我们使用一个尺度因子来约束。

式中𝑚∈{𝑎,𝑣},μ为交叉验证选择的超参数,‖∗‖2为L2范数,Dropout和LN分别为Dropout层和归一化层。

Q:讲一下公式12

A:公式12涉及到将增强后的模态表示Fm进行规范化和调整,以确保其在适当范围内,

同时通过一系列后处理步骤准备好用于后续的分析或预测任务。这个公式的具体作用是控制增强表示的幅度,避免过度放大可能导致的模型不稳定或过拟合问题。以下是对公式(12)的逐部分解释:

公式 12 细节解释

  • 缩放因子 ϕm​

    这里,ϕm​ 是一个缩放因子,用于调整增强后模态表示 Fm​ 的幅度。分子 ​ 是原始模态表示的 L2 范数,而分母 ​ 是增强后表示的 L2 范数。这个比率帮助确保增强后的表示不会因为过度放大而偏离其原始的规模范围。

    μ 是一个超参数,通过交叉验证选择,用于限制 ϕm​ 的最大值,确保即使在 Fm 幅度远小于  时,也不会对 ​ 进行过度放大。

  • 最终的模态表示 FmiF_m^iFmi​

    在应用缩放因子后,的融合表示经过层归一化和 Dropout 处理。层归一化是一种常用的技术,用于在神经网络中稳定训练过程,它通过规范化层输入的均值和方差来减少内部协变量偏移。Dropout 是一种正则化技术,通过随机丢弃神经网络中的部分输出来防止过拟合。

公式的作用

公式(12)通过综合调整增强表示的规模和应用正则化技术,确保模型输出既能保留由文本模态增强带来的丰富情感信息,又不会因规模不当或过拟合而失效。这样的处理使得增强后的声学或视觉表示更适合用于多模态情感分析,有助于提高模型的总体性能和鲁棒性。

双通道跨模式-上下文交互模块DCCMCI

DCCMCI模块旨在从三个角度探索情境情绪信息:模态内、跨模态正相关和跨模态负相关,目的是获得全面的多模态表示。

如图4所示,首先,我们使用多头自注意机制来探索每个模态中的上下文信息。然后,对于跨模态上下文交互,将其分为两个通道。在第一个通道中,我们应用正相关多头注意机制来促进不同模式下表达相似情绪的上下文之间的互动。在另一个渠道中,我们特别设计的负相关多头注意机制用于探索表达不同模态之间不同情绪的语境信息。

我们的目标是通过上下文交互提取表达模态内、跨模态相似性和跨模态差异性的上下文信息,从而获得具有完整情感语义的多模态表示。以声学模态为例,DCCMCI模块的操作包括以下步骤。

模态内上下文交互

如公式(13)所示,我们将声表示进入查询,键,和价值通过一个完全连接层。我们使用向量计算相似度权重矩阵,然后对加权向量𝑎求和,得到一个新的表示向量。每个计算被视为一个单独的头部,并将多个头部的输出连接起来以获得模态内情感表示

跨模态正相关上下文交互

在第一个通道中,如公式(14)所示,我们使用声学表示和连接的视觉和文本表示来获取查询,。然后,我们执行计算以获得跨模态相似情绪表示,表示为

跨模态负相关上下文交互

在另一个通道中,如公式(15)所示,我们使用声学表示和连接的视觉和文本表示来获取查询

然而,在获得相似度权重矩阵后,我们在计算加权和时进行逆运算,以关注跨模态的不同情感信息。随后,我们计算了跨模态差分情感表示,并对其进行了表示

代表了相应的权重,和𝑛𝑒𝑔𝑎𝑡𝑒()表示逆操作。

最后,将得到的跨模态相似和不同的情感表示(分别为)融合后,通过FFN层。此外,如式(16)所示,每一层的输出经过残差变换和归一化处理。

Q:跨模态正相关和跨模态负相关有什么区别?为什么正为什么负?

A:

跨模态正相关上下文交互

  • 目的:强化不同模态间表达相似情感的上下文信息。这意味着,如果两种模态(如声学和视觉)表达了类似的情感(如都是积极的或都是消极的),正相关机制会识别并强调这种相似性。
  • 机制:通过正相关多头注意力,模型在计算时强调那些在不同模态中有相似情感表达的特征。例如,声学模态中的快乐语调和视觉模态中的笑脸将被联合考虑,以增强模型对这种积极情感的理解和表示。
  • 用途:这有助于模型更好地理解在不同表达形式中共同出现的情感,从而在进行情感分析或决策时,能够更准确地捕获和利用这些信息。

跨模态负相关上下文交互

  • 目的:探索并强调模态间表达不同情感的上下文信息。这是指不同模态间表达相反或不一致的情感状态,比如一种模态表达的是快乐而另一种模态表达的是悲伤。
  • 机制:负相关多头注意力机制专注于那些模态间具有情感对立或差异的特征。这通过反向(negate)操作来实现,该操作基本上是寻找那些在一个模态中表达某种情感而在另一个模态中未表达或相反情感的情况。
  • 用途:通过识别和处理这种情感上的差异,模型可以更全面地理解复杂的情感动态,尤其是在情感表达可能因文化、个人差异或情境因素而异的情况下。

为什么需要正相关和负相关?

这两种机制都是为了提高模型在多模态情感分析中的表现。正相关机制可以增强模型在捕获一致情感时的性能,而负相关机制则帮助模型在面对模糊或复杂情感表达时,能够从不一致中识别出有用的情感线索。这样的设计使得模型不仅能理解情感上的一致性,也能处理和解释情感上的复杂性和多样性,这在处理真实世界数据时尤为重要。

情绪预测模块

如公式(17)所示,我们将三种模态的表示连接起来,并将它们输入多层感知器(MLP)模块中进行情感分类。MLP模块由三层网络组成。前两层是利用整流线性单元(ReLU)激活函数的前馈层。MLP的最后一层作为输出层,直接提供一个表示情绪强度的连续值,而不使用激活函数。

其中,是表示情感强度的连续值。

整个模型最终在训练过程中通过最小化总体损失找到最佳拟合参数,如式(18)所示。

其中,表示情绪预测任务损失,表示公共损失,表示个人损失,表示噪声损失,其中,表示每个损失的权重。我们采用均方误差作为情感预测任务的损失函数。此外,公共损失计算为公共表示之间的欧几里得距离和,而私有损失计算为私有表示之间的软正交约束和。此外,噪声损失确定为每个噪声表示的L2范数之和。

实验设置

datasets

在本研究中,我们通过在两个广泛使用的基准数据集(CMU-MOSI和CMU-MOSEI)上进行实验来评估所提出模型的性能,这两个数据集都属于多模态情感分析领域。CMU-MOSI数据集是在线视频情感分析的先驱语料库,包含从93个电影评论视频中提取的2199个短视频片段(Zadeh, Zellers, Pincus, & Morency, 2016)。另一方面,CMU-MOSEI数据集由更大的视频样本集合组成,包括从1000个不同演讲者的演讲中提取的20,000多个视频片段(Zadeh, Liang, Vanbriesen等人,2018)。此外,CMU-MOSI和CMU-MOSEI数据集中的视频样本的情感注释在[−3,3]范围内提供。有关这些数据集的训练集、验证集和测试集的统计细分的进一步详细信息,请参见表1。

baseline

基本设置

实验细节:在音频特征提取模块中,音频帧的采样率为22.05 kHz,帧间跳长为512。在视觉特征提取模块中,视频帧的池化大小为5。我们的模型是用亚当优化器训练的。考虑到计算资源和训练效率,我们将批大小的微调范围设置为{16,32}。考虑到模型的收敛速度和稳定性,我们设置预训练模型BERT的初始学习率为1e−5,其他参数学习率的微调范围为{1e−5,5e−6,1e−6}。共性、个性和噪声约束的权重从{0.1,0.3,0.5,0.8}范围内选择。为了在模型的泛化能力和过拟合风险之间取得平衡,我们将TEA和TEV分量中的Dropout值范围设置为{0.0,0.1,0.3,0.5}。在TESLA-V100 GPU上进行了实验,利用网格搜索来识别指定范围内的最优超参数。我们的模型参数总数为16348.3万个,其中约1.1亿个参数归属于用于文本表示提取的预训练BERT模型。除BERT外,其余参数约为5300万。模型的计算复杂度为6.074 GFLOPs。

评估指标:我们评估模型在回归和分类任务中的性能。在回归任务中,采用平均绝对误差(MAE)和皮尔逊相关系数(Corr)作为评估指标。对于分类任务,我们从[−3,3]区间内的连续标签值中导出离散标签(正标签和负标签),表示样本的情感极性。我们以负/非负和负/正两种方式计算二元分类精度(Acc-2)和F1分数作为评估指标。较小的MAE和较大的其他度量值表示更好的模型性能。

结果和分析

定性分析

我们使用分类和回归任务的各自评价指标将我们的模型与先前的工作进行全面比较。对于分类任务的评估指标,“/”的右侧代表“负/正”,左侧代表“负/非负”。最优度量值以粗体强调。

表2给出了在CMU-MOSI数据集上的实验结果。

这表明我们的模型在分类任务中的性能有了显著的提高。当评估方法为“负/正”时,与次优模型(TMPSA)相比,我们的模型在Acc-2和F1分数上分别提高了1.89%和1.87%。与表现最差的模型(MulT)相比,这些分数分别提高了7.79%和7.87%。当评估方法为“负/非负”时,我们的模型显示,与次优模型(AOBERT)相比,Acc-2和F1得分分别提高了1.26%和1.12%。与表现最差的模型(MISA)相比,这些改进分别上升到4.66%和4.82%。在回归任务中,与次优模型(MMIM)和最差模型(MulT)相比,我们的模型分别减少了0.017和0.205的平均绝对误差(MAE)。

此外,与次优模型(Sen-BERT)和最差模型(MulT)相比,我们的模型将Pearson相关系数(Corr)分别提高了0.01和0.129。

此外,我们还在CMUMOSEI数据集上进行了相关实验。表3给出了CMUMOSEI数据集上的实验结果。在“负/正”评估方法中,我们的模型显示,与次优模型(AOBERT)相比,Acc-2和F1分数都提高了0.31%。与表现最差的模型(SIMR)相比,这些分数分别提高了3.61%和3.33%。在评估“负/非负”方法时,与次优模型(AOBERT)相比,我们的模型在Acc-2和F1得分上分别提高了0.56%和0.47%。与表现最差的模型(MUTA-Net)相比,这些改进分别上升到3.35%和3.17%。在回归任务中,与次优模型(AOBERT)和最差模型(SIMR)相比,我们的模型的平均绝对误差(MAE)分别降低了0.001和0.066。此外,与最差模型(MulT)相比,我们模型的Pearson相关系数(Corr)提高了0.065。

我们将模型的增强性能归因于几个关键因素:层次去噪表示解纠缠网络有效地减少了模态表示中的不相关噪声,保留了详细的情感特征,如个性和共性。此外,跨模态表征增强网络显著增强了听觉和视觉表征中的情感信息。此外,双通道跨模态上下文交互网络可以同时挖掘模态间正相关和负相关的情感信息,增强了多模态表征的情感语义。

为了验证模型的预测性能,我们从CMU-MOSI数据集中选择了五个视频片段进行案例研究。图5显示了每个示例的情绪预测结果。左边是来自视频片段的文本、声学和视觉数据,右边是标签值和模型预测值。

红色代表消极情绪,绿色代表积极情绪,白色代表中性情绪。从图中可以看出,预测值与相应的标签值基本一致,直观地展示了所提出模型的有效性。

消融实验

该模型包括三个主要部分:HDRD、IMRE和DCCMCI。为了深入研究这些成分的内部机制并了解它们对模型的贡献,利用CMU-MOSI数据集进行了全面的烧蚀实验。

在这些实验中,我们首先在保持整体模型结构的同时,通过选择性地排除每个内部组件来验证它们的有效性。在没有HDRD的情况下,我们将提取的模态表示映射到相同的特征空间,并消除了整体损失函数中的三种表示约束损失。在缺乏IMRE的情况下,我们使用非文本表示来增强自身,而不是使用文本表示。在没有DCCMCI的情况下,我们不再对模态表示进行模态间和模态内的上下文交互,而是简单地将它们连接起来并将它们输入到情绪预测网络中。

从表4的实验结果可以看出,当剔除任意一个内部分量时,模型的性能都有不同程度的下降。这证实了每个组件对于增强模型的性能都是必不可少的。其中,剔除IMRE后,模型Acc-2和F1-Score分别下降1.74%/2.32%和1.79%/2.35%。去除HDRD后,Acc-2和F1-Score分别下降5.67%/5.09%和5.6%/5.06%,降幅更为显著。同样,去除DCCMCI后,Acc-2和F1-Score分别下降了6.11%/5.56%和6.03%/5.51%。这些发现表明,当这些组件被移除时,模型性能显著下降。这表明在多模态数据中存在相当数量的干扰噪声,降低了模型的预测精度。多模态数据之间的跨模态正相关和负相关上下文交互都有助于提高情绪预测的准确性。

在HDRD组件中,通过对分离的表示应用不同的表示约束来获得有效的模态表示。为了进一步评估HDRD成分的有效性,我们设计了一个消融研究来验证各种表征约束的效果。在每一轮模型训练中,依次去除三个表示约束损失中的一个。

从表5的实验结果可以看出,当我们丢弃任意一个表示约束损失时,模型的性能都会有不同程度的下降。当去除私人损失后,模型的Acc-2和F1-Score分别下降1.74%/1.39%和1.71%/1.36%。去掉common loss后,Acc-2和F1-Score分别下降了3.49%/3.24%和3.46%/3.23%,降幅更为显著。同样,去除噪声损失后,Acc-2和F1Score分别下降了2.62%/2.78%和2.57%/2.74%。这些发现强调了每个损失组件的重要性,因为当它们中的任何一个被删除时,性能下降都是明显的。这表明该模型更多地依赖于公共损失和噪声损失的约束,而不是私有损失。当所有的表示约束都有效时,模型的预测性能是最优的。这证明了通过公共约束、私有约束和噪声约束,表示学习结果可以更加有效,从而提高模型的性能。

此外,表示约束的权重值在模型中起着至关重要的作用。为了研究表征约束的不同权重值对模型性能的影响,本研究对每个表征约束进行了不同权重值下的消融实验。实验结果如图6所示。对于共同约束的权值,当时,表示模型没有利用共同约束进行表示学习,导致模态表示中存在大量冗余信息。在这种情况下,模型的Acc-2下降了3.24%,平均绝对误差(MAE)增加了0.033。总体而言,该模型的性能并不令人满意。但是,当≥0时,模型的性能得到提高。其中,当≥𝑐= 0.1时,模型达到最优性能

对于私有约束的权值,当 = 0时,表示模型中的私有约束不活跃,导致模态表示中唯一属性的判别无效。在这种情况下,该模型的Acc-2下降到87.50%,而平均绝对误差(MAE)增加到0.694。总体而言,该模型的性能一般。但是,当 = 0时,模型的性能略有提高,当时,模型的准确率达到最高。

对于有噪声约束的权值,当时,表明模型没有处理噪声中的干扰,

导致在模态表示中显著存在噪声特征。在这种情况下,模型的Acc-2下降到86.11%,平均绝对误差(MAE)增加到0.695。因此,模型的整体性能显著下降。然而,当时,噪声约束减少了表示中的噪声,提高了模型的性能。当时,模型的性能最优。对于不同的表示约束,权值为非零的模型的性能始终优于权值为零的模型。这证明了公共约束、私有约束和噪声约束对表示学习的积极影响。

在DCCMCI组件中,采用双通道方法,利用PC-MHA和NC-MHA机制来探索模式之间的上下文相互作用,包括正相关和负相关。为了进一步验证DCCMCI组件的有效性,我们进行了消融实验,仅通过PC-MHA或NC-MHA机制探索模态上下文相互作用,将它们作为单通道探索模式

表6中的实验结果表明,当使用单一通道探索模式之间的上下文交互时,仅使用NC-MHA机制进行信息挖掘的模型比仅使用PC-MHA机制的模型表现出更明显的性能下降。当只使用PC-MHA时,模型的Acc-2和F1-Score分别下降了2.31%/1.39%和1.28%/1.36%。仅使用NC-MHA时,模型的Acc2和F1-Score分别下降了3.05%/3.24%和3.09%/3.28%。这表明,在情绪分析模式之间的上下文正相关相互作用的贡献仍然是独特的。此外,模式之间的负相关上下文交互也对模型性能改进有积极影响。当NC-MHA和PC-MHA机制同时使用时,模型的性能最优。这一发现表明,探索模态之间的正相关和负相关上下文交互可以用更有效的情感信息丰富模态表示,从而提高模型的性能。

在本研究中,通过PC-MHA和NC-MHA机制探索模式之间的上下文相互作用是一个自适应迭代过程。为了进一步探索不同迭代次数对模型性能的影响,我们将迭代次数设置为1 ~ 5次,并在MOSI数据集上重新训练模型。从图7的数据可以看出,当迭代次数配置为4时,模型的性能达到最优。然而,对于迭代次数的其他值,模型的性能会受到不同程度的不利影响。当迭代次数为3次时,模型的Acc-2和F1-Score分别下降了4.63%和4.63%,平均绝对误差(MAE)增加到0.720,F1-Score下降到0.798。

实际上,我们的目标是通过适当的迭代叠加和动态更新挖掘的跨模态上下文交互信息来获得更独特的模态表示。因此,上述实验结果表明,迭代次数过少可能无法有效挖掘出更有特色的情感语境。相反,由于模态之间的情感偏差,过度的迭代可能导致提取不正确的跨模态情感上下文。

为了探索不同模式对所提模型的贡献,我们进行了烧蚀实验,依次去除三种模式中的一种,并相应地调整网络结构。具体来说,当保留文本模态时,我们在模型中维护IMRE模块。但是,如果文本模态被删除,我们将排除IMRE模块。无论哪一种模态被移除,我们在计算表示约束时只考虑剩下的两种模态。

从表7的实验结果可以看出,删除任意模态都会导致模型性能不同程度的下降。

删除视觉模态后,模型的Acc-2和F1-Score分别下降了1.31%/1.39%和1.3%/1.38%。

删除文本情态后,模型的Acc-2和F1-Score分别下降了4.8%/4.17%和4.74%/4.14%。

删除音频模态后,模型的Acc-2和F1-Score分别下降了4.8%/4.63%和4.74%/4.59%。

这些发现表明,在所有情况下,模型性能都有重大损失。结果表明,每种模态都对模型的性能有贡献,但文本和音频模态对模型性能的贡献大于视觉模态。

为了证明我们的模型在情感预测任务中的出色性能,我们利用t-SNE方法将模型学习到的融合表示可视化。可视化结果如图8所示。我们将[−3,3]范围内的预测情绪标签映射到[0,1],其中[0,0.5]表示积极的情绪表示,[0.5,1]表示消极的情绪表示。

图8中的四个子图分别表示了epoch为1,15,30和final时训练过程中融合表征的分布情况。通过观察,很明显,在epoch = 1时,代表不同情绪极性的融合表征呈现混合分布,这表明未经训练的模型学习的表征具有较差的独特性。当epoch = 15时,表示相同情感极性的融合表示开始聚类,表明训练后的模型可以学习到相似样本之间的关联信息。当epoch = 30时,融合表征的分布变得更加紧凑和可分离,表明该模型经过进一步的训练,可以在不同的样本中更准确地识别出更详细的信息。当epoch = final时,正、负融合表征形成两个独立的分布簇,说明该模型在训练完成后具有较好的情绪分类能力。这也间接反映了该模型在情绪预测中的有效性。


http://www.mrgr.cn/news/69485.html

相关文章:

  • 启动QT时,出现找不到python27.dll的问题报错
  • C语言的内存函数
  • 【Ubuntu24.04】服务部署(基础)
  • idea 删除本地分支后,弹窗 delete tracked brank
  • vue2和vue3的区别详解
  • Rocky linux8 安装php8.0
  • 不想付费?这款免费软件满足你所有文件同步的需求
  • 从经典到应用:探索 AlexNet 神经网络
  • html5+css3(css2现状,css3选择器,属性选择器,结果伪类选择器,伪元素选择器)
  • 智能合约在供应链金融中的应用
  • HTML5+css3(浮动,浮动的相关属性,float,解决浮动的塌陷问题,clear,overflow,给父亲盒子加高度,伪元素)
  • 2024系统分析师---统一过程(淘宝押题)
  • 【Ubuntu24.04】部署服务(基础)
  • 使用VSCode远程连接服务器并解决Neo4j无法登陆问题
  • windows C#-使用异常
  • k8s中基于overlay网络和underlay网络的网络插件分别有哪些
  • Jenkins配置步骤
  • md5等摘要算法的「撞库」与「加盐」(Ⅰ)
  • npm i 的时候报错: npm ERR! Error: EPERM: operation not permitted, rename
  • vue3使用element-plus,树组件el-tree增加引导线
  • 【debug】QT 相关问题error汇总 QT5升级到QT6需要注意要点
  • Diffusion Policy——斯坦福刷盘机器人UMI所用的扩散策略(含Diff-Control、ControlNet详解)
  • C#语言详解:从基础到进阶
  • 代码随想录训练营Day20 | 93.复原IP地址 - 78.子集 - 90.子集II
  • 移动应用开发:实现简易调查问卷
  • 第二十九天|贪心算法| 134. 加油站, 135. 分发糖果 ,860.柠檬水找零,406.根据身高重建队列