week06_预训练语言模型—BERT
1.预训练思想
有了预训练就相当于模型在培养大学生做任务,不然模型初始化再做任务就像培养小学生
当前数据层面的瓶颈是能用于预训练的语料快被用完了
现在有一个重要方向是让机器自己来生成数据并做微调
1.1 预训练(Pre - training)vs. 传统的微调(Fine - tune)
一、训练过程
- 预训练
- 预训练通常是在大规模的无监督数据上进行训练。例如,在自然语言处理中,会使用大量的文本语料,如维基百科、新闻文章等,这些文本没有经过人工标注类别等信息。模型(如 Transformer 架构的 BERT、GPT 等)通过学习文本中的词序、语义等特征来构建语言知识。
- 以 BERT 为例,它通过预测句子中的被掩盖的单词(Masked Language Modeling)和判断两个句子是否是上下句(Next Sentence Prediction)等任务来进行预训练。这种无监督的预训练方式使得模型能够学习到通用的语言模式和语义表示,为后续的具体任务训练打下基础。
- 传统微调(Fine - tune)
- 传统微调方法是在一个已经预定义好的模型结构上,使用有监督的数据进行训练。比如在图像分类任务中,会有一个标注好的图像数据集,其中每个图像都有对应的类别标签(如猫、狗等)。
- 模型从随机初始化的参数开始,根据给定的输入(图像)和期望的输出(类别标签),通过反向传播算法来调整模型的参数,以最小化预测结果和真实标签之间的误差。例如,对于一个简单的卷积神经网络(CNN)用于图像分类,会使用标注好的图像数据集(如 CIFAR - 10、ImageNet 等),经过多个轮次(epochs)的训练来优化模型的权重,使模型能够准确地对图像进行分类。
二、模型初始化和参数更新
- 预训练
- 预训练后的模型具有已经学习到的通用特征表示。例如,预训练后的语言模型的词向量已经包含了丰富的语义信息。这些参数是在大规模无监督数据上训练得到的,是对语言(或其他数据类型)的一种通用理解。
- 在后续用于特定任务时,预训练模型的参数可以作为初始参数,并且通常只是在这些参数的基础上进行微调。这样可以利用预训练模型中已经学习到的知识,减少在特定任务上的训练时间和数据量需求。
- 传统微调
- 传统微调方法中的模型参数通常是随机初始化的。这意味着模型在训练开始时没有任何先验知识,需要从输入数据中完全学习特征表示和任务相关的模式。
- 整个训练过程主要是针对特定任务的参数更新。例如,在一个情感分类任务中,模型通过不断调整参数来学习如何根据文本内容判断情感倾向(积极、消极或中性),这些参数更新是基于给定的有监督数据和特定的任务目标。
三、数据要求
- 预训练
- 需要大规模的无监督数据。因为预训练的目的是学习通用的特征表示,只有足够多的数据才能涵盖各种可能的语言模式、图像特征等。例如,在自然语言处理中,像 GPT - 3 这样的模型训练数据量达到了数千亿个单词。
- 数据的质量要求相对灵活,主要是为了让模型学习到丰富的语义和语法结构。即使数据中存在一些噪声或者不精确的内容,在大规模数据的情况下,模型仍然能够学习到有价值的信息。
- 传统微调
- 需要有监督的数据,即数据需要带有明确的标签。例如,在文本分类任务中,每个文本都需要标注其所属的类别;在目标检测任务中,图像中的目标需要标注其位置和类别等信息。
- 数据量要求相对较小,但数据的标注质量要求较高。因为模型完全依赖这些有监督数据来学习特定任务的模式,如果数据标注不准确,会严重影响模型的性能。
四、适用场景和性能表现
- 预训练
- 适用于各种自然语言处理、计算机视觉等任务。当有大量的无监督数据可供利用时,预训练能够学习到通用的知识,然后可以快速适应到多种具体任务中。
- 在数据量有限的情况下,预训练方法可以借助预训练模型的知识来提高性能。例如,在一些小数据集的文本分类任务中,使用预训练的 BERT 模型并进行微调,往往比从头开始训练的模型取得更好的效果,因为预训练模型已经学习到了语言的基本语义和语法结构。
- 传统微调
- 适用于一些相对简单、数据量不大且有高质量标注数据的任务。例如,在一些特定领域的图像分类任务,如医学图像中区分正常细胞和癌细胞,当有足够准确的标注数据时,传统微调方法可以取得不错的效果。
- 但是,在数据量较少或者任务较为复杂的情况下,传统微调方法可能会因为缺乏足够的先验知识而出现过拟合或者性能不佳的情况。因为它需要从有限的数据中学习所有的特征表示和任务模式,而没有利用到像预训练方法那样的通用知识。
1.2 BERT的本质是一种文本表征(context representation)
文本 -> 矩阵 (max length x hidden size)
文本 -> 向量 (1 x hidden size)
word2vec也可以做到同样的事 但word2vec是静态的,而BERT是动态的
1.我喜欢吃苹果 2.苹果和华为哪个牌子好(1和2的苹果不是同一个向量)
词义要结合语境来判断 (每个词的表示都与整句话的语境有关,同一个词在不同语境下向量不同)
1.3 BERT模型详解
论文参考《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
-
BERT 模型的背景
- BERT(Bidirectional Encoder Representations from Transformers)是由谷歌在 2018 年提出的一种预训练语言模型。在它出现之前,语言模型主要是单向的,如从左到右或者从右到左处理句子。这种单向性限制了对句子完整语义的理解,因为它不能同时利用句子前后的信息。BERT 的出现改变了这一局面,它基于 Transformer 架构的编码器部分,通过双向训练的方式能够更好地理解文本的语义和语法。
-
模型架构
- Transformer 编码器:BERT 的核心架构是 Transformer 的编码器部分。它由多个 Transformer 编码器层堆叠而成。例如,BERT - base 通常有 12 层,BERT - large 有 24 层。每个编码器层都包含多头注意力机制(Multi - Head Attention)和前馈神经网络(Feed - Forward Network),并且在每个子层之间都有残差连接(Residual Connection)和层归一化(Layer Normalization),这使得模型能够有效地捕捉文本中的语义和语法信息,并且训练过程更加稳定。Transformer架构浅析-CSDN博客
- 输入表示:BERT 的输入是经过特殊处理的文本序列。它使用 WordPiece 分词算法将文本分割成单词或者子词(sub - word)单元。对于输入序列,会添加特殊的标记,如 [CLS](用于分类任务的汇总表示,通常放在句子的开头)和 [SEP](用于分隔句子,例如在处理句子对任务时使用)。每个输入单元的最终表示是词嵌入(Token Embedding)、位置嵌入(Positional Embedding)和段嵌入(Segment Embedding,用于区分不同的句子部分,比如句子对任务中的两个句子)的组合。
-
加入 [CLS] [SEP] 来标记文本起始位置
Segment embedding 判断来源语句,区分不同句子
Position embedding 带入语序信息,标记词的前后顺序
加和后会做Layer Normalization
Toekn Embeddings和Segment Embeddings和Position Embeddings的维度是相同的——768(BERT - base)
位置编码和 文字内容无关只和句子长度有关,token编码和句子内容有关
最终将三层embeddings相加得到一个总的embeddings,其总长度就是L * 768
三层输出的矩阵大小都是 L * 768,所以最终能相加
segment embeddings和position embeddings当下不怎么用了,被更高级的方法取代,但还是要掌握(self attention比rrn好在它不受两个字距离大小的影响,第一个字和最后一个字有可能计算出很高的关联性分值)
- 模型规模:BERT 有不同的参数规模,如 BERT - base 有 1.1 亿个参数,BERT - large 约有 3.4 亿个参数。这些大规模的参数使得 BERT 能够学习到丰富的语言表示,从而在各种自然语言处理任务中表现出色。
-
预训练任务
- 掩码语言模型(Masked Language Model,MLM):这是 BERT 的一个关键创新点。在预训练过程中,会随机地掩盖输入句子中的一些单词(例如,15% 的单词被选中),然后让模型预测这些被掩盖的单词是什么。具体来说,被选中的单词有 80% 的概率被替换为 [MASK] 标记,10% 的概率被替换为其他随机单词,10% 的概率保持不变。通过这种方式,模型被迫去学习单词之间的语义关系,而不仅仅是记忆单词序列。例如,对于句子 “我 [MASK] 红色的花”,模型需要根据上下文 “我” 和 “红色的花” 来推断被掩盖的单词可能是 “喜欢”。
- 下一句预测(Next Sentence Prediction,NSP):用于训练模型理解句子之间的关联关系。在这个任务中,模型会同时输入两个句子,然后判断这两个句子是否是相邻的句子。例如,对于句子对(“太阳升起。”,“天空变亮。”)和(“太阳升起。”,“鱼儿在水中游。”),模型需要判断哪一对句子是相邻的,从而学习句子之间的语义连贯。这对于诸如问答系统、文本推理等任务非常重要。
-
微调(Fine - Tuning)与应用场景
- 微调过程:BERT 的一个强大之处在于它可以通过微调来适应各种下游自然语言处理任务。在微调阶段,将预训练好的 BERT 模型的参数作为初始值,然后根据具体的任务(如文本分类、问答系统、命名实体识别等)添加一个或几个特定的输出层。例如,在文本分类任务中,可以在 BERT 的输出上添加一个全连接层,将 BERT 的输出维度转换为类别数量,然后在有监督的数据上进行训练,使模型适应文本分类的任务需求。
- 应用场景:
- 命名实体识别(NER):可以识别文本中的人名、地名、组织机构名等实体。BERT 利用其预训练学到的语义知识,结合微调阶段针对 NER 任务的优化,能够更好地识别这些实体的边界和类别。
- 问答系统(QA):在问答任务中,给定一个问题和一段文本(如维基百科文章),BERT 可以通过对问题和文本进行编码,计算它们之间的相关性,从而找到文本中与问题对应的答案部分。
- 文本分类:BERT 能够对文本的情感、主题等进行分类。例如,将新闻文章分类为体育、娱乐、政治等类别。它通过对文章内容进行编码,提取语义特征,然后在微调后的输出层进行分类。
2.transformer结构
Transformer架构浅析-CSDN博客
3.预训练技术的发展
BERT的优势
1、通过预训练利用了海量无标注文本数据
2、相比词向量,BERT的文本表示结合了语境(contexual),效果大幅提升
3、Transformer模型结构有很强的拟合能力,词与词之间的距离不会造成关系计算上的损失
-
双向编码能力
- BERT 采用双向 Transformer 架构,能够同时考虑单词的左右上下文信息,这是其一个重要的优势。传统的语言模型,如 GPT 系列,通常是单向的,要么从左到右,要么从右到左处理句子。而 BERT 的双向性使其可以更全面地理解文本的语义。
- 例如,对于句子 "I went to the bank to deposit money." 和 "I sat on the bank of the river.",BERT 可以根据 "bank" 前后的不同上下文来更好地理解 "bank" 的不同含义,而单向模型可能会在理解一词多义时出现混淆。
-
预训练任务的有效性
- 掩码语言模型(Masked Language Model, MLM):BERT 的 MLM 任务随机地掩盖输入句子中的一些单词,让模型预测这些被掩盖的单词,使模型能够学习到丰富的上下文信息和词汇语义关系。这种方式让 BERT 不仅学习到了单词的顺序,还能理解它们之间的语义关联,增强了对文本的理解能力。
- 下一句预测(Next Sentence Prediction, NSP):这个任务让 BERT 学习到句子之间的关系,对于需要理解句子间语义连贯的下游任务,如问答系统、文本摘要、文本推理等,具有重要意义。它可以帮助模型更好地处理句子对,判断它们是否在语义上连贯。
-
迁移学习和通用性
- BERT 是一种预训练语言模型,可以轻松地迁移到各种自然语言处理(NLP)任务中。通过在大规模文本数据上进行预训练,BERT 已经学习到了丰富的语言知识。对于下游任务,只需要在预训练模型的基础上添加一个或几个特定的输出层,并使用少量标注数据进行微调,就可以取得出色的性能。
- 这意味着它可以广泛应用于文本分类、情感分析、命名实体识别、问答系统等多种任务,无需为每个任务设计专门的架构,大大减少了开发成本和时间。
-
长距离依赖捕捉能力
- 基于 Transformer 的自注意力机制,BERT 能够有效地捕捉文本中的长距离依赖关系。传统的循环神经网络(RNN)或卷积神经网络(CNN)在处理长文本和复杂句法结构时,会因为距离限制或计算效率问题而受到影响。而 BERT 可以直接计算任意位置单词之间的关联程度,不受距离的限制,有助于理解长句子中的语义关系。、
-
深度语义理解
- BERT 能够对文本的语义和语法结构进行深度理解,学习到高级的语言知识,如句子的成分结构、语义角色标注等。在各种任务中,它可以根据上下文信息做出更准确的判断,例如在命名实体识别中准确判断实体的类别,在情感分析中精准感知情感倾向的细微变化。
BERT的劣势
1.预训练需要数据,时间,和机器(开源模型缓解了这一问题)
2.难以应用在生成式任务上
3.参数量大,运算复杂,满足不了部分真实场景性能需求
4.没有下游数据做fine-tune,效果依然不理想
-
计算资源需求大
- BERT 模型规模较大,尤其是 BERT-large 版本,有大量的参数,因此需要大量的计算资源进行训练和微调。这对于硬件设备的要求较高,普通的 CPU 很难处理,需要强大的 GPU 集群,并且训练时间较长。
- 即使在推理阶段,也需要较大的内存和计算能力,可能导致部署困难,特别是在资源受限的环境中,如移动设备或边缘计算设备。
-
预训练数据的偏差
- BERT 的预训练数据可能存在偏差,它是在大规模的文本数据上训练的,但这些数据可能更多地偏向某些领域或语言风格。当应用于特定领域或小众语言时,可能会出现性能下降的情况。
- 例如,在处理专业领域的文本(如医学、法律、金融),如果预训练数据中该领域的数据较少,那么 BERT 可能无法很好地理解其中的专业术语和特殊语言表达。
-
序列长度限制
- BERT 对输入序列的长度有一定的限制,当处理非常长的文本时,需要将其截断或分块处理,这可能会丢失部分信息。虽然其可以处理一定长度的序列,但对于超长文本,会导致性能下降或需要复杂的处理方法。
-
可解释性较差
- 与传统的基于规则的方法相比,BERT 是一种深度学习模型,其内部的决策过程很难解释。我们很难知道 BERT 是如何做出具体的预测和决策的,这在一些对可解释性要求较高的应用场景中是一个缺点,例如医疗诊断、金融风险评估等。