当前位置：首页 > news >正文

《LoRA-IR》：2024年10月中科院自动所提出了一种用于多种修复图像恶化退化问题的LORA，效果拔群

news 2025/12/14 20:32:44

在这里插入图片描述

1、中科院于2024年10月发布 LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration
2、LoRA-IR的Github仓库

在这里插入图片描述

文章目录

论文摘要
1 引言介绍
2 方法
- 2.1 Degradation-guided Router
- 2.2 Degradation-guided预训练
- 2.3 参数高效微调
3 实验
- 3.1 实验设置
- - 3.1.1 数据集和指标
  - - 3.1.1.1 失真度量标准-峰值信噪比PSNR
    - 3.1.1.2 失真度量标准-结构相似性指数（SSIM）
    - 3.1.1.3 感知度量标准-感知相似度（LPIPS）
    - 3.1.1.4 感知度量标准-弗里德曼指数（FID）
  - 3.1.2 训练细节
- 3.2 与最先进方法的比较
- - 3.2.1 除雪、去雨、去雾和雨滴去除效果
  - 3.2.2 真实世界的去雨、去雾和除雪的效果
  - 3.2.3 3种图像修复的去雨、去雾、去噪
  - 3.2.4 5种图像修复的去雨、低光增强、除雪、去雾和去模糊
  - 3.2.5 10种图像修复的去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复

论文摘要

论文介绍一种名为LoRA-IR的新方法，该方法旨在解决图像恢复中的复杂和多样化退化问题。包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复等等问题。

1. 背景与挑战

首先，文章指出基于提示（Prompt）的全功能图像恢复框架已经取得了显著的性能成就，这些框架通过将特定退化信息融入到提示模块中来工作。然而，面对现实世界中遇到的复杂多样的退化情况时，现有的方法仍然面临着重大挑战。这意味着尽管有了一些进展，但在处理实际应用中出现的各种退化问题时，现有技术还存在局限性。

2. 解决方案 - LoRA-IR

为了解决上述挑战，研究者们提出了LoRA-IR，这是一种灵活的框架，能够动态地利用紧凑的低秩专家来实现高效的全功能图像恢复。这里的关键点在于“动态”和“低秩专家”，意味着该框架可以根据不同的退化类型灵活调整，并且使用了计算效率高的模型组件。

2.1 训练过程

LoRA-IR的训练分为两个阶段：

退化导向的预训练：在这个阶段，研究者增强了一个预训练的CLIP模型，使其能够处理更高分辨率的图像。这样做是为了从图像中提取出强大的退化表示，这些表示可以适应性地指导图像恢复网络。简而言之，这一步是让模型学会识别不同类型的退化特征。
参数高效的微调：在这一阶段，研究者使用低秩适应（Low-Rank Adaptation, LoRA）技术对预训练的图像恢复网络进行微调。LoRA是一种有效的模型微调技术，它通过仅更新模型的一小部分参数来实现对新任务的学习，从而保持较高的计算效率。

2.2 动态集成机制

LoRA-IR建立在一个混合专家（Mixture-of-Experts, MoE）架构之上，该架构允许LoRA-IR通过一个退化导向的路由器动态地整合多个低秩恢复专家。这意味着当面对新的或未知的退化类型时，LoRA-IR能够选择最适合当前任务的专家来进行图像恢复，从而大大提高了模型对各种复杂场景的适应能力。

3. 实验结果

广泛的实验表明，LoRA-IR在14个图像恢复任务和29个基准测试上达到了最先进的性能水平。这说明了LoRA-IR不仅在理论上具有创新性，在实践中也表现出了强大的效果。

4. 开源贡献

最后，研究者提到代码和预训练模型将在GitHub上公开提供，代码和预训练模型。

综上所述，LoRA-IR是一个针对图像恢复中复杂退化问题提出的高效解决方案，其创新之处在于动态地利用低秩专家来提高模型的适应性和效率。

1 引言介绍

图像恢复（IR）是计算机视觉中的一个基本任务，旨在从低质量（LQ）输入中恢复高质量（HQ）图像。近年来，随着针对特定退化（如恶劣天气去除，去噪，去模糊，低光增强）的专用恢复网络取得了显著进展。然而，在实际应用（如自动驾驶和户外监控）中，图像通常同时受到多种复杂退化的影响，包括雾、雨、雪、低光条件和运动模糊。这些复杂退化不仅降低了图像质量，还严重损害了下游视觉任务的性能，对系统的安全性和可靠性提出了重大挑战。为单任务恢复而设计的现有专用模型在这些不可预测和变化的环境中很难有效泛化。

为了克服专业模型的局限性，越来越多的人开始关注能够处理多种Degradation的全集成框架的开发。早期的方法，如多编码器架构[24]（图2（a）），为不同类型的Degradation分别使用独立的编码器。虽然它们在处理多种Degradation方面有效，但冗余的结构导致了大量参数，这阻碍了可伸缩性和效率。最近的方法采用了基于 Prompt 的框架（图2（b）），将Degradation特定的信息编码到轻量级的 Prompt 中，以引导共享网络。

在这里插入图片描述

然而，仅依赖轻量级 Prompt 和静态共享网络可能无法完全捕捉到不同Degradation相关联的精细细节和特定模式，导致恢复结果不理想。此外，Degradation之间的潜在相关性和共享特征–如恶劣天气条件下的共同模式–没有得到充分利用。探索这些相关性可能是增强模型在复杂真实世界场景中适应性和有效性的关键。

在这项工作中，作者提出了一种名为LoRA-IR的灵活高效的整体图像修复框架（图2（c））。受低秩自适应（LoRA）在参数高效微调方面的成功启发，本文探索了使用多种低秩专家来高效建模Degradation特性和相关性的方法。LoRA-IR包含两个训练阶段，均由作者提出的Degradation导向路由器（DG-Router）引导。DG-Router基于强大的视觉语言模型CLIP，其在广泛的高级视觉任务中展示了强大的表示能力。然而，在低级任务中，其有限的输入分辨率会导致处理高分辨率LQ图像时的性能不佳。

为此，作者提出了一种简单而有效的方法将CLIP扩展到高分辨率。LoRA-IR包括下采样图像和应用滑动窗口技术以捕获全局和局部细节表示，然后使用轻量级MLP进行融合。在训练参数最小化和训练时间短的情况下，DG-Router可以提供强大的Degradation表示和概率指导，用于LoRA-IR的训练。

在第一阶段，作者使用DG-Router提供的Degradation表示来指导IR网络的预训练。Degradation表示通过提出的Degradation引导自适应调制器（DAM）动态地调节IR网络内的特征。

在第二阶段，作者使用LoRA微调第一阶段得到的IR网络。

基于Mixture-of-Expert（MoE）结构，作者构建了一组低秩恢复专家。利用DG-Router的概率引导，作者稀疏选择不同的LoRA专家，动态地调整IR网络。不同的专家增强了网络捕捉Degradation特定知识的能力，而它们的协同作用使网络具备学习各种Degradation之间的相关性的能力。

动态网络结构使得LoRA-IR能够适应多种Degradation，并提高了其泛化能力。如图1所示，LoRA-IR在处理复杂实际场景方面超过了所有比较的最先进的一体化方法，并展示了良好的泛化能力。

在这里插入图片描述

主要贡献可概括如下：

提出了LoRA-IR，一种简单而强大的全图像修复 Baseline 。LoRA-IR采用了一种新颖的低秩专家结构混合，在提高架构灵活性的同时保持了计算效率。
提出了一种基于CLIP的Degradation指导路由器（ DG-Router ），用于提取强大的Degradation表示。DG-Router所需的训练参数和时间最小，为LoRA-IR提供了有价值的指导。
经过在14个图像修复任务和29个基准测试中的广泛实验，验证了LoRA-IR的最高性能。值得注意的是，LoRA-IR在实际场景中表现出强大的泛化能力，包括在训练时未见过的任务和混合Degradation移除。

2 方法

在这里插入图片描述

如图4所示，图像恢复网络基于常用的U-Net结构，由堆叠的编码器、中间和解码器块组成。LoRA-IR由两个训练阶段组成：降维引导预训练和参数高效的微调，均由提出的降维引导路由器（DG-Router）指导。首先引入基于CLIP的DG-Router，用于提取稳健的降维表示并提供概率估计以指导LoRA-IR的训练。然后详细描述了LoRA-IR的预训练过程。最后，描述了微调过程。

2.1 Degradation-guided Router

如图4（a）所示，DG-Router利用一个预训练的CLIP图像编码器从LQ图像中提取丰富的特征。预训练的CLIP图像编码器通常将输入图像限制在较小的分辨率（例如，224x224）。在处理更高分辨率的图像时，常见的方法是将图像下采样到CLIP支持的分辨率，通过处理器实现。虽然这种方法对基于感知的较高层次分类任务影响可能很小，但在像素级回归任务（如图像修复）中，重大的下采样可能导致关键Degradation信息的丢失。

在这里插入图片描述

图3展示了CLIP处理器处理LQ图像后的结果。可以看出，显著的下采样导致LQ图像中的Degradation信息大量丢失，从CLIP输出特征中有效提取Degradation表示变得具有挑战性。

为了应对这个问题，作者提出了一种简单而有效的机制来扩展输入分辨率。对于输入LQ图像 $L_{LQ}\in R^{H\times W\times 3}$ ,作者使用滑动窗口将图像划分为小的局部块 $I_{slide}\in R^{M\times H_{c}\times W_{c}\times 3}$ ,其中 $M$ 是块的数量， $H_c\times W_c$ 是CLIP支持的分辨率。 $I_{slide}$ 和降采样图像 $I_{down}\in R^{H_c\times W_c\times 3}$ 同时输入到图像编码器中，得到输出特征 $e^{slide}\in R^{M\times C_{clip}}$ 和 $e^{down}\in R^{C_{clip}}$ 。

如图4（a）所示，在池化 $e^{slide}$ 之后，将它们拼接并输入到两个层MLP中，以获得CLIP提取的Degradation嵌入 $e^{clip}$ ，其可以表示为

$e^{down}, e^{slide}]=CLIP([I_{down},I_{slide}])$
$e^{clip}=MLP(Concat(e^{down},Pooling(e^{slide}))$

在将 $e^{clip}$ 输入到分类头后，作者最终得到降解预测概率 $w\in R^n$ ，其中 $n$ 是降解类型的数量。去除不必要的装饰，DG-Router使用标准的交叉熵损失进行优化，仅包含分类头和两层MLP两个参数。训练完成后，DG-Router的所有参数都被冻结，不再更新。

2.2 Degradation-guided预训练

在预训练阶段（图4（b）），作者使用由DG-Router提取的退化表示 $e^{clip}$ 动态调节恢复网络。作者提出了一种退化导向自适应调制器（DAM），用于调制恢复网络的特征。如图4（d）所示，作者首先使用两层MLP Projector 将 $e^{clip}$ 转换为IR网络特征空间的退化嵌入 $e^d$ 。DAM采用类似于通道注意力块[88]的结构，在通道维度上调节退化信息，可以表示为：

$e^d=MLP_{shared(e^{clip})}$
$x_{out}=LN(x_{in}) \odot Sigmoid(MLP(e^d))+x_{in}$

其中 $\odot$ 表示元素乘法， $MLP_{shared}$ 表示不同块共享的 MLP Projector ， $L N$ 表示 LayerNorm， $x_{in}$ 是 IR 网络中的原始特征， $x_{out}$ 是经过调制后的特征。通过调制 DAM，来自 DG-Router 的鲁棒降维表示可以有效增强 IR 网络在预训练过程中的降维特定知识。

2.3 参数高效微调

在微调阶段，作者旨在利用低秩自适应（LoRA）技术有效地模拟Degradation特性和相关性，从而增强模型处理训练可见Degradation的能力，并提高其在实际训练中未见Degradation问题的鲁棒性。

如图4©所示，作者基于混合专家（MoE）架构建立了一个由低秩恢复专家组成的数据集。作者总共有n个低秩专家{E1,E2,…,En}，每个专家都是一个从第一阶段预训练恢复网络的 learnable 轻量级 LoRA 权重，专门处理特定类型的退化。

对于给定的输入LQ图像，DG-Router可以预测其退化概率 $w\in R^n$ 。 $w$ 被用作不同专家的评分，以选择适当的专家进行恢复过程。作者稀疏地选择评分最高的 $k$ 个专家作为最相关的专家，并通过他们的动态协作得到最终恢复结果，可以表述为

$x_{out}=PreMod(x_{in}) + \sum_{i=1}^{k}w^{'}_{\varphi(i)}E_{\varphi(i)}(x_{in})$

其中 $P re M o d$ 表示第一阶段的预训练模块， $\varphi(i)$ 表示第 $i$ 个被选中的专家的索引， $w\in R^n$ 表示对所选前 $k$ 个专家的分数应用softmax归一化后的结果（未选中的专家的权重设置为0）。

请注意，公式（3）中的稀疏选择机制赋予了LoRA-IR灵活的网络结构，增强了其表示Degradation特定知识的能力。另一方面，动态组合机制方便了不同修复专家之间的协作，有效地模拟了各种Degradation之间的共性和关联。低秩专家的设计确保了LoRA-IR的高效性，使其能够以计算高效的方式实现高性能的一体化图像修复。

3 实验

3.1 实验设置

为了全面评估LoRA-IR，作者根据以前的工作在五个不同的设置中进行实验：

(I) 4种恶劣天气去除，包括除雪、去雨、去雾和雨滴去除；
(II) 3种真实世界的恶劣天气去除，包括去雨、去雾和除雪；
(III) 3种图像修复，包括去雨、去雾和去噪；
(IV) 5种图像修复，包括去雨、低光增强、除雪、去雾和去模糊；
(V) 10种图像修复，包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复。

对于每个设置，作者都训练一个统一的模型来处理多种类型的退化。

3.1.1 数据集和指标

对于设置I，作者使用全天气数据集来评估LoRA-IR。对于设置II，使用WeatherStream数据集来评估模型在实际场景中的性能。对于设置III，使用RESIDE进行去雾，使用WED和BSD进行去噪，使用Rain100L进行去雨。对于设置IV，使用一个合并的数据集进行去雨，使用LOL，DCIE，MEF，以及NPE进行低光增强，使用Snow100K进行去雪，使用RESIDE进行去雾，使用GoPro，HIDE，RealBlur进行去模糊。对于设置V，使用与 Controlling vision-language models for universal image restoration. In ICLR, 2024中相同的数据集。

关于评估指标，作者采用峰值信噪比（PSNR）和结构相似性指数（SSIM）作为失真度量标准，感知相似度（LPIPS）和弗里德曼指数（FID）作为感知度量标准。对于不包含真实图像的基准测试，使用无参考指标的图像质量指数（IL-NIQE）。

3.1.1.1 失真度量标准-峰值信噪比PSNR

峰值信噪比（Peak Signal-to-Noise Ratio，简称PSNR）是一种用于评估图像质量的度量标准，特别是在图像压缩、图像处理以及图像恢复等领域中广泛使用。

1. 基本概念

PSNR衡量的是原始图像与处理后图像之间的差异。具体来说，它反映了处理后图像与原图相比的质量变化程度。PSNR值越高，表示处理后的图像与原图越接近，即质量损失越小；反之，PSNR值越低，则表示处理后的图像与原图相差较大，质量损失较大。

2. 数学定义

PSNR的定义基于均方误差（Mean Squared Error，MSE）。MSE计算的是两幅图像对应像素值差的平方的平均值。假设我们有两幅大小相同的图像 $I$ 和 $K$ ，其中 $I$ 是原始图像， $K$ 是处理后的图像，那么MSE可以表示为：

$MSE=\frac{1}{mn}\sum_{i=0}^{m-1}\sum_{j=0}^{n-1}[I(i,j)-K(i,j)]^2$

其中， $m$ 和 $n$ 分别表示图像的高度和宽度， $I (i, j)$ 和 $K (i, j)$ 分别表示图像 $I$ 和 $K$ 在位置 $(i, j)$ 处的像素值。

3. PSNR的计算

PSNR的计算公式如下：

$\log_{10} \left( \frac{\text{MAX}_I^2}{\text{MSE}} \right)$

其中， $\text{MAX}_I$ 表示图像的最大可能像素值。对于8位灰度图像， $\text{MAX}_I = 255$ ；对于24位彩色图像，通常取每个通道的最大值255，然后乘以通道数（例如，对于RGB图像， $\text{MAX}_I = 255 \times \sqrt{3}$ ）。

4. 具体步骤

计算MSE：
- 对于每一对对应的像素，计算它们的差值的平方。
- 将所有差值的平方求和。
- 用总和除以图像的总像素数 $mn$ ，得到MSE。
计算PSNR：
- 使用上述公式，代入MSE和 $\text{MAX}_I$ 的值，计算PSNR。

5. 例子

假设我们有一幅8位灰度图像，原始图像 $I$ 和处理后的图像 $K$ 如下：

$I$	$K$
100	102
120	123
150	151
200	205

计算MSE：
- 差值的平方： $100-102)^2 = 4$ , $120-123)^2 = 9$ , $150-151)^2 = 1$ , $200-205)^2 = 25$
- 总和： $4 + 9 + 1 + 25 = 39$
- MSE： $\frac{39}{4} = 9.75$
计算PSNR：
- $\text{MAX}_I = 255$
- $\text{PSNR} = 10 \log_{10} \left( \frac{255^2}{9.75} \right) \approx 33.01 \text{ dB}$

6. 结论

PSNR是一种常用的图像质量评估指标，通过计算原始图像与处理后图像之间的均方误差，并将其转换为对数形式，从而得到一个反映图像质量的数值。PSNR值越高，表示图像质量越好。在实际应用中，PSNR常用于比较不同图像处理算法的效果。

3.1.1.2 失真度量标准-结构相似性指数（SSIM）

结构相似性指数（Structural Similarity Index, SSIM）是一种用于评估两幅图像之间相似性的度量标准，特别适用于图像质量评估。与传统的峰值信噪比（PSNR）相比，SSIM更注重图像的结构信息，因此在很多情况下更能反映人眼对图像质量的感知。

1. 基本概念

SSIM旨在通过考虑图像的亮度、对比度和结构信息来评估两幅图像之间的相似性。具体来说，SSIM试图捕捉人类视觉系统（HVS）的特点，特别是对亮度、对比度和结构变化的敏感性。

2. 数学定义

在这里插入图片描述

3. 具体步骤

在这里插入图片描述

4. 例子

假设我们有两幅8位灰度图像，原始图像 $I$ 和处理后的图像 $K$ 如下：
在这里插入图片描述

5. 结论

SSIM是一种更符合人类视觉系统的图像质量评估指标，它通过考虑图像的亮度、对比度和结构信息来评估两幅图像之间的相似性。与PSNR相比，SSIM在许多情况下更能准确地反映人眼对图像质量的感知。在实际应用中，SSIM常用于图像压缩、图像恢复和图像处理等领域的质量评估。

3.1.1.3 感知度量标准-感知相似度（LPIPS）

感知相似度（Learned Perceptual Image Patch Similarity, LPIPS）是一种用于评估图像质量的度量标准，特别关注图像的感知相似性。与传统的结构相似性指数（SSIM）和峰值信噪比（PSNR）不同，LPIPS通过学习图像的高级特征来评估图像之间的相似性，因此更能反映人类视觉系统的感知特性。

1. 基本概念

LPIPS的核心思想是利用深度学习模型提取图像的高级特征，然后通过这些特征来评估两幅图像之间的相似性。具体来说，LPIPS使用预训练的卷积神经网络（CNN）来提取图像的特征图，再通过计算这些特征图之间的距离来评估图像的相似性。

2. 数学定义

在这里插入图片描述

3. 具体步骤

在这里插入图片描述

5. 结论

LPIPS是一种基于深度学习的图像质量评估指标，通过学习图像的高级特征来评估两幅图像之间的相似性。与传统的SSIM和PSNR相比，LPIPS更能反映人类视觉系统的感知特性，因此在图像压缩、图像恢复和图像处理等领域的质量评估中表现出更好的性能。

3.1.1.4 感知度量标准-弗里德曼指数（FID）

弗里德曼指数（Fréchet Inception Distance, FID）是一种用于评估生成模型（如生成对抗网络，GAN）生成图像质量的度量标准。FID通过比较生成图像和真实图像在特征空间中的分布来评估生成图像的质量。与传统的度量标准（如PSNR和SSIM）不同，FID更能反映人类视觉系统的感知特性，因此在生成模型的评估中非常有用。

1. 基本概念

FID的核心思想是通过计算生成图像和真实图像在特征空间中的分布距离来评估生成图像的质量。具体来说，FID使用预训练的Inception网络来提取图像的高级特征，然后计算这些特征的分布距离。

2. 数学定义

在这里插入图片描述

3. 具体步骤

在这里插入图片描述

4. 结论

FID是一种基于深度学习的图像质量评估指标，通过比较生成图像和真实图像在特征空间中的分布来评估生成图像的质量。与传统的PSNR和SSIM相比，FID更能反映人类视觉系统的感知特性，因此在生成模型（如GAN）的评估中表现出更好的性能。在实际应用中，FID常用于评估生成模型的输出质量和图像合成算法的效果。

3.1.2 训练细节

对于DG-Router的训练，使用了Adam优化器，批量大小为 $64 * n$ ，其中 $n$ 是任务的数量。整个训练耗时20分钟，固定学习率为 $2e^{-4}$ ，使用8块NVIDIA A100 GPU。作者的LoRA-IR遵循两阶段训练过程，即预训练和微调。对于两阶段，均使用了AdamW优化器，批量大小为64。训练块大小设置为256，以确保公平比较。随机裁剪、翻转和旋转被用作数据增强技术。对于图像恢复网络结构，图4中的所有基本块都是简单的卷积NAFBlocks，形成了一个简单的全卷积CNN基础。不同设置的更多具体细节请参阅附录。

3.2 与最先进方法的比较

3.2.1 除雪、去雨、去雾和雨滴去除效果

在这里插入图片描述

表1显示了LoRA-IR与特定任务方法和一体式方法的比较结果。与如MPerciever和Histoformer等SOTA方法相比，LoRA-IR在所有基准测试和指标上都取得了部分改进。

3.2.2 真实世界的去雨、去雾和除雪的效果

为了进一步证明LoRA-IR在减轻真实世界恶劣天气条件方面的有效性，作者在WeatherStream数据集上评估其性能。表3展示了与最先进的通用IR（SOTA）以及一体的IR方法（all-in-one IR）的定量比较结果。与SOTA方法LDR相比，LoRA-IR在三个任务上平均提高了0.76 dB的PSNR。

在这里插入图片描述

3.2.3 3种图像修复的去雨、去雾、去噪

表2展示了3个任务图像复原的定量比较结果。在LoRA-IR中，与PromptIR相比，在Rain100L数据集上，PSNR提高了1.38 dB，SSIM提高了0.007，平均改进了0.36 dB.

在这里插入图片描述

3.2.4 5种图像修复的去雨、低光增强、除雪、去雾和去模糊

表4展示了LoRA-IR在五个任务上与SOTA任务特定方法和一体化方法的定量比较结果。结果表明，LoRA-IR在所有任务上都优于比较的一体化方法，甚至在大多数任务上超过了任务特定方法。例如，与最近的SOTA方法DiffUIR相比，LoRA-IR在各种任务上带来了0.92至2.8 dB的PSNR改进。

在这里插入图片描述