大模型微调:Adapter;在大模型基础上增加低秩矩阵或者adapter有什么用,这样还增加运算
目录
大模型微调:Adapter
一、Adapter的具体实现方式
二、为何能在大模型基础上实现特定功能
三、举例说明
在大模型基础上增加低秩矩阵或者adapter有什么用,这样还增加运算
增加低秩矩阵的用途和优势
增加Adapter的用途和优势
关于运算复杂性的考虑
大模型微调:Adapter
确实是一种高效的微调方法,特别适用于大型预训练模型(如BERT、GPT等)在特定下游任务上的适配。以下是Adapter的具体实现方式、为何能在大模型基础上实现特定功能,以及相应的举例说明:
一、Adapter的具体实现方式
Adapter方法的核心思路是在预训练模型的各个层后面添加可学习的适配器模块(Adapter层),这些模块包含少量的可训练参数。在微调过程中,只有Adapter层的参数会被更新,而预训练模型的核心参数保持不变。
具体来说,Adapter层通常包括两个线性变换(下采样和上采样)和一个非线性激活函数。输入特征首先经过下采样映射到低维空间,通过激活函数进行非线性变换,然后再通过上采样映射回高维空间,最后与原始输入特征进行残差连接。
数学上,假设输入为x,Adapter模块的输出可以表示为:
Adapter(x) = x + W_up * σ(W_down * x)