当前位置：首页 > news >正文

BERTective: Language Models and Contextual Information for Deception Detection

news 2026/1/8 2:05:43

概要

本文基于一组包含虚假陈述的意大利对话语料库，建立了一种新的最先进的欺骗识别方法，并发现并非所有上下文对这一任务都是同样有用的。只有当文本来自同一说话者时，离目标文本最近的上下文（而不是对话者的提问）才能提升性能。作者还发现，像BERT这样的语言模型中的语义信息对性能有贡献。然而，单独使用BERT并不能捕捉到欺骗线索的隐含知识：其贡献依赖于同时使用注意力机制来从BERT的表示中学习线索。

实验设置

数据集

DECOUR数据集：包括意大利法院举行的35次刑事诉讼听证会的法庭数据记录。这为真实的欺骗数据提供了独特的来源。语料库是意大利语的。它由被访者和一些采访者（如法官、检察官、律师）之间的对话组成。每个对话都包含不同说话人的话语序列。这些话语被称为转折（turns）。根据定义，相邻的回合来自不同的说话者。每个回合包含一个或多个话语（utterances）。受访者的每句话都被标记为“真”、“假”或“不确定”，其他说话者的话语没有标记。

实验条件

本文使用二元分类（虚假陈述与非虚假陈述类别），为了避免在同一听证会的发言上过拟合训练和测试，采用了留一交叉验证的方法，每个折叠构成一个听证会。在这些设置中，每个折叠中一个听证会用作测试集，一个用作开发集，其余的用作训练集。作者为每个折叠进行了五个训练周期，选择在开发集上具有最佳F-score的模型。还识别了七种不同的上下文，这些上下文应该有助于分类任务，连同目标发言。它们如下：

前一个发言 - 1prev。考虑目标之前的第一个发言，无论发言者是谁。
前两个发言 - 2prev。与上述相同，但这里收集目标之前的前两个句子。
前三个发言 - 3prev。在这种情况下，收集前三个发言，同样不考虑发言者。
发言者的前一个发言 - s-utt。在这种情况下仅考虑目标之前的发言，如果发言者是同一位受访者。如果另一个发言者发出了前一个发言，则不收集该发言，目标发言将没有上下文。
发言者的前几个发言 - s-utts。与前一种情况类似，仅收集受访者的发言，但如果目标发言之前有多个发言（在同轮次内），则全部收集。换句话说，收集本目标在该轮次的所有发言。
发言者的前几个发言 + 轮次 - s-utturn。考虑所有可能的发言者发言和前一个轮次，该轮次属于另一个发言者。如果没有前一个发言者的发言，我们仅收集前一个轮次。这将使该实例等同于根据最后一种条件创建的实例。
前一个轮次 - turn。收集整个前一个轮次，这是唯一上下文不是由受访者自己产生的情况。

对话示例

A: “我觉得这个计划很有前景。”
B: “但是我们需要更多的数据支持。”
A: “我们可以考虑不同的方案。”
B: “我同意，但时间紧迫。”
A: “那么我们应该尽快行动。”
B: “是的，时间不等人。”
A: “我会准备一个详细的提案。”

	目标发言是A的“我会准备一个详细的提案。”
1prev	B的“是的，时间不等人。”
2prev	B的“是的，时间不等人。”和A的“那么我们应该尽快行动。”
3prev	B的“是的，时间不等人。”和A的“那么我们应该尽快行动。和B的 “我同意，但时间紧迫。”
s-utt	A的“那么我们应该尽快行动。”
s-utts	A的“那么我们应该尽快行动。”
s-utturn	A 的“那么我们应该尽快行动。”和B的 “是的，时间不等人。”
turn	B的 “是的，时间不等人。”和A的 “那么我们应该尽快行动。”和B的 “我同意，但时间紧迫。”

指标和基准

使用四个指标来评估模型：准确率、精确率、召回率和F-measure。

虽然准确率是一个标准指标，但当数据集不平衡且关注的类别是少数类时，由于其信息量有限，主要类别的表现很容易掩盖了少数类别的真实表现。即便如此，准确率仍然是一个具有挑战性的基准，因为简单的启发式方法（例如总是预测主要类别）会导致较高的准确率。在DECOUR中，非虚假发言是主要类别，占实例的68.66%。因此，这就是预测主要类别时所获得的准确率。将这种主要类别的预测作为基准。

对于模型的整体评估依赖于F-measure，它反映了模型在两个类别中正确预测的平衡能力。除了主要类别的预测（其F-measure为40.71），作者还将模型与之前的最新技术进行比较。使用Fornaciari和Poesio（2013）提供的F-measure最高性能。在该实验中，联合使用了词袋（Bag-Of-Words，BOW）特征和LIWC（Pennebaker等，2001）提供的词汇特征，并应用了支持向量机（SVM）分类器（Drucker等，1997）。该模型的准确率为70.18%，F-measure为62.98。

实验方法

本文使用多种神经模型进行分类。对于所有不依赖于BERT上下文嵌入的模型，使用预训练的Fast Text嵌入（Joulin等，2016）作为初始化权重，并在训练过程中对其进行了微调。由于计算负担的原因没有微调上下文BERT嵌入。然而，模型参数的高数量要求使用较低的学习率，作者手动将其调整为1.e−4，并使用小批量大小，设置为8。丢弃率为0.1。

神经网络基准

作者添加了两个神经网络基准：多层感知器（MLP）和卷积神经网络（CNN）。
MLP的表现未能超越SVM。CNN的F-measure优于SVM，但差异不显著。此外，CNN的效果也不如那些未利用上下文信息的基于注意力的模型。因此，作者没有为MLP和CNN提供上下文信息，而是将它们作为额外的神经网络基准。然而，为了获得它们可能的最佳性能，作者进行了全面的超参数搜索。对于MLP，实验发现使用可训练的FastText嵌入和两个隐藏层的组合效果最佳。对于CNN，使用了3个卷积-最大池化层，分别具有32、64和128个通道，窗口大小为2、4和6。

基于transformer的模型

作者创建了两种模型：层次模型和非层次模型。采用非层次结构分析目标句子，并实现了层次transformer以共同编码目标句子和上下文信息。在层次模型中，输入不是单个发言，而是一系列发言。最大句子数设置为5。这个限制能够收集约98% DECOUR中的所有轮次的完整文本。然而，考虑更广泛的上下文并没有带来帮助。

不考虑批量，层次transformer的输入是一个三维张量，表示[文档、单词和嵌入]。每个单词-嵌入矩阵被传递给一个多层、多头的transformer，该transformer提供每个发言的表示，并返回与输入相同形状的张量作为输出。接下来的全连接层减少了嵌入的维度。文档的表示随后被连接成一个二维张量，并传递给另一个多层、多头的transformer，该transformer提供整体文档表示。另一个全连接层用于减少张量的最后维度，然后将其重塑为行向量。这个向量被输入到最后一个全连接层中，以提供预测，上图展示了这样的架构。

使用层次transformer，对七种上下文进行了实验。同样调整了超参数。在层次模型中，在发言和文档级别的编码器中使用了六层和六个头的transformer。对于非层次模型，两个层和两个头就足以获得最佳的开发集结果。

基于BERT的模型

最后，使用意大利语的BERT基础模型进行分类。本文设置了三种模型：

BERT + 全连接层
这是最简单的网络，仅用于对目标发言进行预测。将BERT的均值池化输出输入到一个全连接层中，该层执行预测。

BERT + transformer
这是一个更具表现力的网络，其中BERT的输出被传递到一个多层、多头的transformer。transformer的表示随后被传递到一个全连接层，该层输出预测。我们采用了六层和六个头的transformer，类似于层次transformer模型。与BERT + 全连接层模型类似，仅将目标句子输入到该网络中。

文本对BERT + transformer
最后一个网络在结构上与前一个相同，但在这种情况下使用BERT的文本对模式。将目标句子的大小设置为100个单词，上下文设置为400个单词。上下文是所选文本的连接，填充或截断在开头。如果截断，只会失去距离目标句子最远的文本部分。然而，语料库大多包含简短的陈述：填充到100和400保证了最小的数据损失。使用这个模型，作者测试了上述七种上下文。

实验结果

结果见下表。

第一组实验包含文献中的基准和简单神经网络。
第二组和第三组分别展示了基于transformer和基于BERT的模型。

实验报告了准确率、精确率、召回率和F-measure。作为显著性检验的基准，使用Fornaciari和Poesio（2013）提供的文献基准。*表示显著性水平，通过自抽样计算得出，p ≤ 0.05和p ≤ 0.01。根据Søgaard等（2014）的建议，避免使用过小的样本量，将样本设置为语料库的50%。

分析

结果显示，SVM的表现是一个强有力的基准。只有少数模型超越了它的准确率，而且没有显著提高。精确率也是如此。召回率是大多数神经网络模型超越SVM的指标（在五个案例中显著），尽管它们付出的代价是预测的精确率较低。因此，在16个基于transformer和BERT的模型中，只有四个模型的F-measure显著优于SVM，这对应于召回率的显著提升和更好的准确率，尽管后者并不显著。

非上下文化模型

两个最佳模型仅考虑目标句子：非层次transformer和使用BERT进行单文本处理的模型，后者采用了transformer架构。尽管在超参数探索中付出了努力，包括使用非常低的学习率和正则化方法（如丢弃法），但仍然无法防止该模型在低性能水平上出现强烈的早期过拟合。似乎单个全连接层无法处理此任务的复杂性

上下文化模型

上下文化模型在基于transformer和基于BERT的模型中显示出类似的趋势。这些趋势在BERT模型中更为明显，并导致更高的性能，但在层次transformer中也可见。层次transformer的F-measure都不优于非层次transformer模型，尽管它们的表现优于SVM基准，但并不显著。

作者还观察到，当上下文从一个发言扩展到三个发言时，模型的性能缓慢下降：三种条件下的F-measure下降趋势甚至比层次变换器的情况更为明显。

欺骗语言

作者采用两种方法来描绘欺骗语言：

1）计算词n-gram的信息增益（Information Gain，IG）（Forman，2003）
2）应用采样和遮蔽（Sampling and Occlusion，SOC）算法（Jin等，2019）。

信息增益衡量不同类别之间（序列）术语的熵。某一标签类别中术语的存在越不平衡，越以另一类别为代价，其IG值就越高。

上表显示了具有最高IG值的三元组，按其所指示的类别进行分类，即它们出现得更频繁的类别。

这些n-gram显示，欺骗性陈述充满了否定词：主要是“不记得”，但也包括“不知道”和“没有做”。相比之下，真实的陈述往往更具肯定性，专注于时间和环境的具体细节。

IG信号的强度还表明，真诚的表达比欺骗的表达要多样得多，后者则更常重复，似乎特别刻板。 尽管神经模型检测到的模式不一定能用人类常识来解释，我们仍然使用SOC来突出模型认为对其输出最具影响力的词汇。SOC通过考虑在将每个词替换为MASK标记后预测的差异，提供了对句子中特定词在分类任务中权重的事后解释（Jin等，2019）。由于结果依赖于上下文词汇，但Jin等（2019）关注的是单个词的相关性，因此他们并不使用整个上下文，而是从中抽样词汇。通过这种方式，他们减少了上下文的权重，强调了词本身的权重。下图展示了两个正确分类的句子示例，一个是欺骗性的，一个是真实的。模型将红色词汇解释为欺骗的指示，蓝色词汇则表示真实性。它们与IG是一致的。然而，它们不能被解释为最复杂模型内部运作的代表，因为SOC依赖于标准的基于BERT的分类器。