当前位置：首页 > news >正文

Transformer

news 2025/4/3 15:19:54

机器学习：编写固定菜谱，人工制定规则处理输入（比如遇到A就输出1）

深度学习：可以调节

权重就是模型的大脑，是在训练过程中学习到的，决定了模型的行为模式
正在处理的数据，仅仅编码了某次操作中模型接收的具体输入

①拆解Token：将输入的内容拆解为多个小片段(词元Token)

例如：”我爱AI“ 可以拆解为[”我“，”爱“，”AI“]

②嵌入向量初始化：给每个Token对应到一个数字向量上，初始化：

向量仅代表此Token的字面含义，不会涉及其他周边环境的信息

例如：苹果，就代表苹果水果这个含义，不会因为他后面跟着苹果手机，就改变这个语言
向量的初始位置相当于高维空间中的箭头，比如猫和狗的向量夹角就会小，和汽车的夹角就会大
向量里会加位置编码Position，让模型知道这个词是第几个（上下文中位置）

③注意力模块Attention Bolock：接下来所有Token向量会相互交流，更新自己的值

传统RNN只能顺序处理单词，距离远的信息就丢失了，Attention强调互相看，不管多远
初始时嵌入矩阵随机，所有词毫无意义。训练后向量会通过Attention和MLP学会语言和上下文关系

④前馈网络MLP：也叫多层感知机，主要让每个Token单独升级

⑤重复交替Attention交流 + MLP升级

⑥模型会取最后一个Token的向量，用它来计算下一个词出现的概率，选取概率最高的为预测结果

因为核心都会融入到序列的最后一个向量中

例如：输入”我爱“，输出可能是{”AI“70%,"学习"20%}

①嵌入层Embedding：将单词转换为向量（如”猫“->[0,1,2…]）

②注意力机制Attention：

目标：让每个词向量能询问其他词：你们谁对我更重要？
三步操作：
- Query：查询向量，当前词提出问题（”我是名词，谁是形容词可以修饰我？“）
- Key：键向量，其他词提供答案线索（”我是形容词“）
- Value：值向量，实际传递的信息（”把我的‘小型的’含义加个你“）
效率优化：如Value矩阵由Query+Key组合得到，可以减少计算量
数学过程：
- 计算Query和Key的点积（匹配度分数）
- Softmax归一化（分数->概率）
  
  技术细节：确保后续词不影响前面词（不然后面词汇会泄漏接下来的内容线索）->Mask掩码机制
- 用概率加权求和Value，更新当前词向量
多头注意力：并行多组Q/K/V，让模型从不同角度理解上下文（比如同时关注语法、语义）

这里都是Self-Attention概念，Cross-Attention和Self-Attention不一样的点在于键和查询映射在交叉，注意力机制中会作用于不同的数据集，即Query和Key来自不同序列，常用于翻译任务