当前位置: 首页 > news >正文

李沐读论文-启发与借鉴-3:Attention is all you need

(一)借鉴

1. Transformer有很多变形,它和CNN、MLP基本现在都算是非常基础必用的内容了

2.如果你又双忘了self-attention的输入、输出为什么是一样的形状,请看看这个视频,这是我看过的解释得最清晰的一个了

3.多做实验,每个实验都进行Table记录,才能有所发现

(二)启发

1.其实整个Transformer架构的超参数很少:有几个层xxxxx的,所以是一个很simple的架构,后来的Bert\GPT都是直接在上面扩展的

2.其实QKV本身没学到什么,真正学到的还是每面的MLP,指示QKV在更宏观的维度把握了数据之间的关系(这也是Transformer只有在数据量和模型足够大的情况下会优于CNN的原因之一)

3.对了,李沐说的multi-head的实现可以合并成一个矩阵的实现,其实就是当时刘海根学长在实验课上提到的做法,非常巧妙

4.做Mask这件事,其实是为了保证train的时候和infer的时候一样,看不到还没有输出的内容(不过,有一个小小的点,我其实没弄明白output Embedding那里输入的是什么?)

5.关于最后的MLP层的特殊之处,它只是对当个"词"做MLP,因为词与词之间的联系已经在之前的attention中抽取完了。

6.关于写作,这篇Attention is all you need的写作上,其实是没有故事的,每一句话都是一个做法。不过,我们写论文,最好是有创新,然后有理有据的讲述一个故事,让读者有代入感。

7.对于Transformer模型本身,是一个很通用的框架,就像是CNN对于计算机视觉的影响,而人其实都是从听、视、文本等多模态的感知,Transformer可以让多模态统一框架。——不同的领域都可以用这个

8.其实attention做的就是序列信息的aggregation —— (偏哪归置?一般化?)


http://www.mrgr.cn/news/59096.html

相关文章:

  • Java 项目 Dockerfile 示例:从基础镜像选择到环境变量配置的详细指南
  • 泛型的特点
  • 零基础Java第十期:类和对象(一)
  • 模型选择拟合
  • 【K8S】快速入门Kubernetes
  • C#从零开始学习(用户界面)(unity Lab4)
  • 【Nas】X-DOC:在Mac OS X 中使用 WOL 命令唤醒局域网内 PVE 主机
  • 四、Hadoop 命令高级用法深度剖析
  • 基于SSM框架、传统文化学习系统的设计与实现
  • Lampiao靶机入侵实战
  • springboot多模块打包时出现Could not resolve dependencies for project
  • 构建负责任的人工智能:数据伦理与隐私保护
  • 牛客周赛 Round 64(博弈论、思维、构造、LCA、换根DP)
  • 信息咨询试题
  • nfs实验
  • Redis学习文档(常见面试题)
  • 基于SSM+小程序的垃圾分类管理系统(垃圾3)
  • P450催化的联芳基偶联反应-文献精读72
  • 【专题】计算机网络之数据链路层
  • 「二叉树进阶题解:构建、遍历与结构转化全解析」
  • 【Linux系统】进程终止
  • Elasticsearch安装使用
  • Python数值计算(33)——simpson 3/8积分公式
  • 011 操作符详解 中
  • 硬件设计-PCIe时钟抖动测量
  • Oracle故障诊断(一线DBA必备技能)之ADRCI(二)