当前位置: 首页 > news >正文

Transformer(三):论文 Attention Is All You Need

一般好的文章都有个好名字,《Attention Is All You Need》这篇论文一看名字就知道很厉害。

论文原文:https://arxiv.org/abs/1706.03762

最初这篇论文主要是针对机器翻译来写的,随着gpt和bert把这个架构用在更多的自然语言处理的任务上时,整个工作就出圈了。现在图片、音频和视频,几乎什么东西都能用,这也是它爆火的原因之一。

首先,我们来看论文的标题、摘要和结论。

摘要梗概

        transformer模型仅依赖于注意力机制,没有使用之前的循环或卷积。作者做了2个机器翻译的实验,显示了这个模型在性能上特别好,并行度很好、且训练时间更少。在英语到德语的翻译工作,我们比目前最好的结果,好了2个BLUE。在英语到法语的翻译任务上,做了一个单模型。比所有的模型效果都好。只在8个GPU上训练了3.5天。transformer架构能够泛化到别的任务上,都很好。

摘要解读

  • 作者提出了一个新的模型,主要用在哪呢,用在机器翻译的任务上。 
  • 这就是作者的贡献,提出了一个新的简单的模型,且跟之前表现很好的模型架构都不一样。
  • BLUE score是机器翻译里常用的衡量标准。

 

结论梗概

transformer模型是第一个序列转录模型,仅使用注意力,将之前所有的循环层全换成了多头自注意力(multi-headed self-attention)。

在机器翻译的任务上,transformer能训练的比其他的架构快。

基于注意力机制的模型,也可以用在文本以外的数据上,例如图片、语音和视频。使得生成不那么时序化是另一个研究方向。

结论解读

现在看来,作者当初是预测transformer在各种别的数据上做的比较好。虽然说这些工作都不是本篇论文作者完成的,都是由别人完成的,但是作者基本看准了大方向。

论文所有代码放在tensor2tensor这个库里。这也是比较有意思的写法,将整个代码放在了结论的最后。我们知道,通常有代码的话,会将其放到摘要的最后一句话。因为现在神经网络的文章细节是很多的,简单的一篇文章是很难将细节写清楚。所以最好第一时间公布代码,让别人能很方便的重复你的文章,以便扩大文章的影响力。

其次,快速浏览整篇文章。

1 Introduction 解读

在时序模型里,当前(指2017年)最常用的是RNN(Recurrent Neural Networks),LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)。实现逻辑是靠循环来实现序列信号的抽取。

有2个主流模型,当信息比较多的时候,会用编码器-解码器(encoder-decoder)的架构。

RNN的特点是什么,优缺点是什么。

优势:

(1)实现了统计机器学习到深度学习的过渡。

(2)自然语言处理相关算法可以用于工程项目。

劣势:

(1)依赖循环,当序列很长时,无法并行计算,速度很慢,无法有效利用硬件加速。

(2)通过隐藏状态来进行信息的传递,当序列很长时,信息会丢失。

(3)模型搭建很多层时,没有得到足够的性能回报。

(4)要么很难收敛,要么性能没有提升多少。

注意力机制的优势:

(1)抛弃循环,可并行提取特征,序列可以很长。

(2)并行特征的抽取没有前后顺序,也就不存在信息遗忘的问题。

(3)有ResBlock和LayerNorm的加持,模型可以无限堆叠,重复越多,能力越大。

 2 Background 解读

相关工作的章节,跟论文相关的论文是哪些,又有哪些关系和区别。

如何使用卷积神经网络来替换循环神经网络,以减少时序的计算。

transformer是第一个依赖自注意模式来做encoder-decoder架构的模型。

3 Model Architecture 解读

模型架构,深度神经网络论文里最重要的这就是这部分了,主要讲这个神经网络是怎样的。

解释了什么是编码器-解码器,对于编码器而言,会将其转化为向量输出。

对于解码器而言,会将编码器的输出生成一个长为m的序列,注意n和m不一定一样长。

自回归:过去时刻的输出作为当前时刻的输入。

transformer使用的是编码器-解码器的架构。


http://www.mrgr.cn/news/71176.html

相关文章:

  • Autosar CP 基于CAN的时间同步规范导读
  • 【java】java通过s3访问ceph报错
  • AI写作(四)预训练语言模型:开启 AI 写作新时代(4/10)
  • 深入理解接口测试:实用指南与最佳实践5.0(一)
  • TofuAI处理BT1120时序视频要求
  • GitLab 中文发行版最新版重点功能解读
  • 【2024最新】渗透测试工具大全(超详细),收藏这一篇就够了!
  • 【comfyui教程】comfyui攻略:故障报错应对指南!
  • 神经网络算法
  • 基于51单片机俄罗斯方块游戏—可暂停
  • 安卓全屏实现
  • 【锁】聊一聊ReentrantLock 和 Synchronized 的区别
  • 丹摩征文活动|CogVideoX-2b:从安装到上线,轻松搞定全过程!
  • QML —— 圆形波浪进度条控件(附上源码)
  • docker save 和 docker load介绍
  • 常用的8款电脑加密软件分享|电脑办公文件加密软件推荐!
  • 【软考】系统架构设计师-计算机系统基础(1):计算机硬件
  • Linux的进程,线程;FreeRTOS的任务
  • 错误:No bean named ‘cxf‘ is defined
  • 酷炫的鼠标移入效果(附源码!!)
  • 【Spring】Spring框架中有有哪些常见的设计模式
  • 磁集成技术给磁性材料带来哪些新要求?
  • 壁纸集 1.2.12 | 壁纸聚合软件,内置4个图片接口,超多高清壁纸
  • WTN6040FP-14S语音芯片在电梯控制板中的应用开发方案-实现楼层指引背景音乐播放功能
  • Uniapp+Vue3+Ts+Unocss实现小程序、APP、H5的大转盘抽奖效果
  • 通过注解控制是否打印日志