图解Transformer就这30页PPT,你们真不看啊
图解Transformer就这30页PPT,你们真不看啊
主要介绍了Seq2Seq模型,慢慢引出了transformer的整体模型架构,比较具体的介绍了编码器部分的数据处理过程,包括了位置编码、多头注意力机制、残差连接、Layer Norm以及前馈网络等基本结构。
目录:
1、Seq2Seq 模型
2、Transformer 模型架构
3、Transformer 输入部分
4、Transformer 编码器
5、Transformer 解码器
6、Transformer 总结
一、Seq2Seq 模型
Seq2Seq模型的输入是一个序列(sequence),输出也是一个序列,结构上包括一个编码器(Encoder)和一个解码器(Decoder),并且模型输出的序列长度由模型自己决定。
其中,Encoder 将一个可变长度的信号序列变成固定长度的向量表示(语义编码),Decoder 将这个固定长度的向量变成可变长度的目标信号序列。在 2014年,KCho等提出了由两个RNN组成的Encoder-Decoder模型学习短语的表示,用于统计机器翻译。同年,Sutskever等发表论文SequencetoSequenceLearningwith Neural Networks,正式提出了Seq2Seq的神经网络模型架构。
Seq2Seq模型广泛应用在输入序列和输出序列长度可变的领域
二、Transformer 模型架构
基于Seq2Seq架构的transformer模型可以完成自然语言处理领域研究的典型任务,比如机器翻译、文本摘要等。在下面的架构分析中,我们将介绍使用Transformer 模型处理从一种语言文本到另一种语言文本的翻译任务。
PPT截图:
这份《图解Transformer》PPT已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
PPT: 完整版本链接获取
👉[CSDN大礼包🎁:《
图解Transformer
》PPT免费分享(安全链接,放心点击)]👈