当前位置: 首页 > news >正文

为什么大模型都是Decoder-only结构?

扫一扫下方,获取更多面试真题的集合

在探讨当前大型语言模型(LLM)普遍采用Decoder-only架构的现象时,我们可以从以下几个学术角度进行分析:

  1. 注意力机制的满秩特性:Decoder-only架构采用的因果注意力机制(causal attention)形成了一个下三角矩阵,这种结构保证了矩阵的满秩性(即行列式非零),从而赋予模型更强的建模能力。相比之下,Encoder架构中的双向注意力机制可能会导致矩阵的秩降低,进而影响模型的表达能力。

  2. 预训练任务的难度:在Decoder-only架构中,模型在预训练阶段每个位置只能接触到有限的信息,这增加了预测下一个token的难度。然而,当模型规模足够大且数据量充足时,Decoder-only模型在学习和泛化方面表现出更高的上限。

  3. 上下文学习能力:Decoder-only架构在上下文学习方面表现更为优异,这是因为prompt和demonstration信息可以被视为对模型参数的一种隐式微调。这种特性使得Decoder-only架构在few-shot学习场景中具有明显优势。

  4. 效率问题:Decoder-only架构支持KV-Cache的复用,这对于多轮对话任务更为友好。在这种架构中,每个token的表示仅依赖于之前的输入,而Encoder-Decoder架构则难以实现这一点。

  5. Zero-Shot性能:Decoder-only模型在没有额外的tuning数据的情况下,展现出更好的zero-shot性能。相比之下,Encoder-Decoder架构则需要在一定量的标注数据上进行多任务微调(multitask finetuning),以激发其最佳性能。

综上所述,Decoder-only架构因其在训练效率、工程实现以及理论上的优势,成为了当前LLM设计的主流选择。尤其是在生成任务中,引入双向注意力并未带来显著好处,而Encoder-Decoder架构在某些场景下表现更好,可能仅仅是因为其参数量的增加。因此,在参数量和推理成本相等的条件下,Decoder-only架构成为了一个更优的选择。


http://www.mrgr.cn/news/62254.html

相关文章:

  • 爱书爱考平台说明
  • Unity git版本管理
  • C/C++、网络协议、网络安全类文章汇总
  • 【时时三省】(C语言基础)经典笔试题3
  • microPython搭建webServer--(一)使用microdot库实现基本页面显示
  • Perl语言的网络编程
  • Python入门——iter迭代器—__iter__()方法__next__()方法
  • 详解RabbitMQ三种队列类型
  • Rust编程中的浮点数比较
  • 多线程显示 CSV 2 PNG 倒计时循环播放
  • Redis 淘汰策略 问题
  • leetcode hot100【LeetCode 230. 二叉搜索树中第K小的元素】java实现
  • DOM---鼠标事件类型(移入移出)
  • Java AQS Semaphore 源码
  • 天润融通突破AI客服局限,三大关键提升文本机器人问答效果
  • [SWPUCTF 2021 新生赛]easy_sql的write up
  • 虚拟机Ubuntu实现和宿主机之间的数据传输(只能复制粘贴,包过)
  • JVM系列之内存布局
  • RK3568平台(PWM篇)红外遥控适配
  • 高效构建仓库AGV管理系统:基于Python的路径规划与货架管理
  • 电动车进入电梯数据集、自行车进入电梯数据集 电动车进入电梯VOC数据标注数据集
  • 带你用Go实现二维码小游戏(中)
  • Java AQS 源码
  • 利用双指针法解题
  • RNN在训练中存在的问题
  • 大模型入门综述---从模型,训练,部署全方面认识大模型