当前位置：首页 > news >正文

大模型-模型架构-长上下文模型

news 2025/4/26 13:44:34

一、实现长上下文模型的研究方向

拓展位置编码
调整上下文窗口

二、拓展位置编码

1、相关概念

外推能力：超出原始上下文窗口的文本上，也表现出较好的建模能力，称之为外推能力
关键子空间：某些子空间长度超过上下文窗口长度，导致模型在这些子空间上无法对完整的旋转周期进行训练，这些子空间通常被成为关键子空间

2、原理

基于RoPE进行改进

3、方案

直接微调
- 原理：直接使用长文本进行微调
位置索引修改
- 原理：通过修改位置索引来调整所有子空间的旋转角度，从而保证其不超过原始上下文窗口所允许的最大值
- 方式一：位置内插
  - 原理：对于位置索引进行特定比例缩放
  - 优点：训练代价小
  - 缺点：对处理短文本会造成负面影响
- 方式二：位置截断
  - 原理：不同位置采用不同方式，依据语言建模的局部性原理，对模型中近距离敏感的位置索引进行保留，同时截断或插值处理远距离位置的索引，确保其不超过预设的最大旋转角度
  - 优点：模型无需训练即可应用于更长上下文，并且依然保持对短文本的建模能力
  - 缺点：需要对注意力矩阵进行二次运算，增加了算力消耗
基修改
- 原理：对子空间的基进行缩放，从而影响旋转角度，从而保证上下文窗口的正常处理
- 方式一：底数调整
  - 原理：按照一定比例增大底数，从而缩小旋转角度
- 方式二：基截断
  - 原理：根据某一个阈值调整旋转角度

三、调整上下文窗口

1、原理

采用受限的注意力机制来调整原始的上下文窗口

2、方案

并行上下文窗口
- 原理：文本分段、独立编码，共享位置编码，生成阶段，通过调整注意力掩码，使得后续生成的词元能访问先前的所有词元
- 缺点：无法有效区分不同的段落顺序，某些情况下会限制模型能力
^形上下文窗口
- 原理：有选择性地查询词元邻近的及序列起始词元，忽略超出这一范围的其他词元
- 优点：能生成无限长的流畅文本
- 缺点：无法有效利用被忽略部分
词元选择
- 原理：跳出最重要的一部分词元，以实现对于完整注意力的有效拟合
- 实现方式
  - 方式1：查询词元相似度
  - 方式2：查询与词元所在分块的相似度

四、长文本数据准备

1、数据量

1B长文本数据量+百部训练=7B或13B的LLaMA，上下文窗口拓展到100K

2、数据混合

领域分布多样化
长文本类型多样化
- 去除杂乱型（杂乱无章的文本）
- 保留整体型（完整有意义的长文）
- 保留聚合型（多篇相关文本的聚合）

http://www.mrgr.cn/news/30422.html

相关文章：

3.使用 VSCode 过程中的英语积累 - Selection 菜单（每一次重点积累 5 个单词）

面试官：什么是CAS？存在什么问题？

【海康威视面经】

gcc升级（含命令行升级、手动升级两种方式）

数据结构之二叉树遍历

字节推音乐生成神器 Seed-Music 支持多样化输入和精确控制

C++初阶学习第六弹------标准库中的string类

【新手上路】衡石分析平台使用手册-认证方式

关于Java数据结构中集合的一个小知识

python 函数简记

95分App引领年轻人省钱赚钱新风尚，闲置也能变宝藏

内存管理篇-27寄存器映射：ioremap

打工人、设计师必备的AI抠图工具

索引的介绍

音视频入门基础：AAC专题（10）——FFmpeg源码中计算AAC裸流每个packet的pts、dts、pts_time、dts_time的实现

chapter15-泛型——（自定义泛型）——day20

力扣232：用栈实现队列

【python】多线程

Java 之网络编程小案例