BERT模型学习笔记
1.微调 BERT模型:
使用带标签的数据为特定任务训练模型并更新预训练权重。具体来说,BERT 模型预训练时是在大量无标签文本上进行的,它学习了广泛的语言表示。在微调过程中,你会使用与特定任务相关的带标签数据(例如分类、问答、命名实体识别等),通过反向传播来更新模型的部分或全部权重,使其更好地适应该特定任务。
2.注意力机制:
一种确定一个句子中每个字词对翻译另一个句子的重要性的方法。注意力机制最初用于神经机器翻译领域,帮助模型在翻译时根据上下文决定输入句子中哪些词对当前的翻译词最为重要。它通过动态地分配权重,使模型能够“关注”输入序列中最相关的部分,从而提高翻译或其他任务(如文本生成、问答系统)的性能。
3.BERT的用途:
用于多种自然语言处理任务,例如问答、文本分类和自然语言推理。BERT(Bidirectional Encoder Representations from Transformers)是谷歌在 2018 年推出的基于 Transformer 架构的模型,旨在通过双向编码器深入理解句子中的每个词及其上下文。它在广泛的自然语言处理任务中表现出色,例如情感分析、命名实体识别、机器翻译、问答系统等。
4. BERT是基于 Transformer 架构的模型:
基于 Transformer 的双向编码器表示法 (BERT) 中使用的语言建模技术叫作 Transformer。BERT 是基于 Transformer 架构的模型,它通过自注意力机制处理输入序列,并且采用了双向编码方式,从左右两个方向同时理解句子中的词语及其上下文。BERT 不使用循环神经网络 (RNN)、长短期记忆 (LSTM) 或门控循环单元 (GRU),而是完全基于 Transformer 架构的编码器部分。
5.Transformer自注意力(Self-Attention)和前馈(Feed-Forward):
Transformer模型中每个编码器的两个子层是自注意力(Self-Attention)和前馈(Feed-Forward)。具体来说,每个编码器层首先通过自注意力机制来捕捉输入序列中词与词之间的相关性,然后通过前馈神经网络对每个词的表示进行非线性变换。这两个子层帮助模型更好地理解序列中的全局依赖关系和局部特征。
6. Transformer模型中输入句子生成的三种不同嵌入:
Transformer 模型中输入句子生成的三种不同嵌入是词元嵌入、片段嵌入和位置嵌入,共同为 Transformer 模型提供输入丰富表示。
①词元嵌入(Token Embeddings):将输入句子的每个词或子词转化为固定维度的向量表示。
②片段嵌入(Segment Embeddings):用于区分输入的不同部分,尤其在处理双句任务时,比如区分句子A和句子B。
③位置嵌入(Position Embeddings):因为 Transformer 不像 RNN 那样依赖序列顺序,因此需要通过位置嵌入为每个词提供它在句子中的相对位置。
7. Transformer模型应用:
Transformer模型是深度学习模型,该模型使用自注意力机制来学习序列不同部分之间的关系。Transformer 不依赖循环神经网络 (RNN) 或卷积网络,而是通过自注意力机制有效地捕捉序列中词与词之间的依赖关系。这使它非常适合处理长距离依赖的问题。最初,Transformer 模型被用于自然语言处理任务,如翻译和问答,但由于其架构的灵活性,它也在其他领域(如计算机视觉)得到了应用。
8. Transformer模型的编码器和解码器组件
编码器注入一个输入序列并生成一系列隐藏状态。解码器从编码器接收隐藏状态并生成一个输出序列。具体来说,编码器通过自注意力机制处理输入序列,将其转换为一系列隐藏状态(每个词的表示)。解码器则利用这些隐藏状态,再结合自注意力和目标序列中的词元,生成最终的输出序列。编码器和解码器之间的这种信息流是 Transformer 模型中处理翻译、文本生成等任务的关键。
9.BERT是仅使用编码器的模型:
BERT(Bidirectional Encoder Representations from Transformers)只采用了 Transformer 模型中的编码器部分。它通过双向自注意力机制对输入序列进行编码,捕捉句子中每个词的上下文信息。BERT 主要用于自然语言处理中的理解类任务,如文本分类、问答和命名实体识别,而不是生成类任务,这也是它仅使用编码器的原因。