当前位置：首页 > news >正文

Lora算法原理及应用

news 2024/10/24 13:59:34

参考文章
LORA论文

核心原理

LoRA（Low-Rank Adaptation）本质上是对特征矩阵进行低秩分解的一种近似数值分解技术，可以大幅降低特征矩阵的参数量，但是会伴随着一定的有损压缩。从传统深度学习时代走来的读者，可以发现其实LoRA本质上是基于Stable Diffusion的一种轻量化技术。

在AI绘画领域，我们可以使用SD模型+LoRA模型的组合微调训练方式，只训练参数量很小的LoRA模型，就能在一些细分任务中取得不错的效果。

LoRA模型的训练逻辑是首先冻结SD模型的权重，然后在SD模型的U-Net结构中注入LoRA权重，主要作用于CrossAttention部分，并只对这部分的参数进行微调训练。

在这里插入图片描述

在这里插入图片描述
上图是LoRA模型训练的示意图。通常来说，对于矩阵A，我们使用随机高斯分布初始化，并对矩阵B使用全0初始化，使得在训练初始状态下这两个矩阵相乘的结果为0。这样能够保证在训练初始阶段时，SD模型的权重完全生效。

lora有效的原因：
像SD、LLM等大模型往往具有较低的内在维度，这意味着大模型的权重矩阵往往是低秩的。换句话说，并非大模型所有的参数都是必需的！我们可以将这些权重矩阵分解为低秩矩阵，并通过训练这部分权重来实现比较好的性能，换个更通俗地表达：“不是大模型全参微调训练不起，而是LoRA模型更有性价比！”

Lora的用法

调整LoRA模型使用时的权重
在这里插入图片描述
多个LoRA模型同时作用

DreamBooth+LoRA
DreamBooth技术的特点：

使用稀有描述词将特定主题注入SD系列模型和LoRA系列模型中。为了防止模型过拟合，使用class-specific prior preservation loss来正则化模型的训练过程。
DreamBooth技术能够在保持模型泛化能力的基础上，让模型学习到特定主题的特征。
如果我们不启用正则集数据和class-specific prior preservation
loss，这时训练过程将和fine-tune微调训练一致。

Textual Inversion
在这里插入图片描述
如上图所示，我们输入的Text Prompt会先经过Tokenizer转换成Tokens，再经过Text Encoder输出embeddings特征，通过Attention机制注入到SD系列模型中，Textual Inversion技术就是作用于上图的Text Prompt过程中。
Textual Inversion技术的核心思路是基于3～5张特定概念（物体或者风格）的示例图像来训练一个特定的Text Embeddings模型，从而将特定概念编码到Text Embedding空间中。Text Embedding空间中的词向量是有足够的表达能力恢复出图像特征，同时Textual Inversion技术不需要对SD系列模型中的U-Net部分进行微调训练（SD模型参数冻结），只需要训练一个新的token embedding就足够了，所以使用Textual Inversion技术不会儿干扰SD模型本身已有的先验知识。