论文速读:简化目标检测的无源域适应-有效的自我训练策略和性能洞察(ECCV2024)
中文标题:简化目标检测的无源域适应:有效的自我训练策略和性能洞察
原文标题:Simplifying Source-Free Domain Adaptation for Object Detection: Effective Self-Training Strategies and Performance Insights
1、Abstract
本文重点关注计算机视觉中目标检测的无源域适应。这项任务非常具有挑战性并且具有很大的实际意义,因为获取每个新领域的带注释数据集的成本很高。最近的研究针对无源目标检测(SFOD)提出了各种各样的解决方案,其中大多数是具有不同特征对齐、正则化和伪标签选择策略的师生架构的变体。我们的工作研究了在几种适应场景中与更复杂的 SFOD 方法相比更简单的方法及其性能。我们强调了检测器主干中批量归一化层的重要性,并表明仅调整批量统计数据就能使模型成为 SFOD 的强大基线。我们在无源设置中针对 Mean Teacher 提出具有强弱增强(strong-weak augmentation)的简单扩展,即无源无偏教师 (SF-UT),并表明它实际上优于以前的大多数 SFOD 方法。此外我们还展示了一种更简单的策略,即在一组固定的伪标签上进行训练,可以实现与更复杂的师生相互学习相似的性能,提高计算效率的同时并减轻师生崩溃的主要问题。我们使用(Foggy)Cityscapes、Sim10k 和 KITTI 等基准驱动数据集对多项适应任务进行了实验,与 SFOD 的最新技术相比,在 Cityscapes→FoggyCityscapes 上实现了 4.7% AP50 的显著改进。
2、Introduction
2.1、无源域适应的定义与价值
领域适应旨在将从源领域获取的知识转移到具有一定相关性但数据分布不同的目标领域,其特征是领域转移。无源域适应 (SFDA) 解决了一个更具挑战性的场景,即只能访问来自源域的预训练模型和来自目标域的未标记数据。这与标准的无监督域适应 (UDA) 形成鲜明对比,后者可以使用标记的源数据。在难以获得目标域数据标签,以及由于隐私问题、存储限制或部署约束而限制源数据使用的情况下,SFDA变得特别有价值。我们关注的是无源目标检测(source - free Object Detection, SFOD),其目的是在不访问源数据的情况下,将在源域上训练的检测器适应于未标记的目标域。
2.2、目标检测
目标检测是在图像中同时定位和分类多个目标的任务,是计算机视觉的一个主要领域,具有许多实际应用。虽然基于深度学习的目标检测器近年来取得了显著的成功,但它们的性能在存在域转移的情况下往往会出现显著的下降。目标检测的领域适应明显比分类更具挑战性,因为它不仅需要准确的分类,还需要精确的定位。为了应对这一挑战,人们提出了各种无监督域适应的方法来解决目标检测任务(UDAOD)。
2.3、无源域适应目标检测
尽管具有实际意义,但 SFOD 受到的关注相对较少。当存在显著的域转移并且源数据不可访问时,该任务变得特别艰巨,阻止了域转移的显式减少。大多数提出的 SFOD 方法采用 Mean Teacher (MT) 框架,在置信伪标签上进行自我训练。Mean Teacher 最初是为半监督学习(semi-supervised learning,SSL)引入的,是 temporal ensembling 的一种变体,其中知识从教师网络提取到学生网络。学生从教师那里接收伪标签,并通过标准的基于梯度的学习进行更新,而老师则通过先前学生权重的指数移动平均值(EMA)逐渐更新。这种方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。在完全无标签的师生架构训练中,一个主要问题是教师和学生在训练过程中的崩溃。具体来说,每当教师在目标域的表现开始下降时,就会导致学生的进一步下降,进而导致两个网络中的表现崩溃。为了缓解这一挑战,有研究将教师更新的周期增加到2500步(没有指定更新速率,也没有指定如何设置更新周期)。PETS 建议教师和学生定期交换,并增加一名更新较慢的教师,以有效防止灾难性崩溃;然而,这增加了整个体系结构的复杂性,并且需要根据经验设置交换周期。
2.4、本文提出的方法
在这项工作中,我们证明了与前面提到的更复杂的 SFOD 方法相比,一种更简单的 SFOD 方法的有效性。首先,我们强调批量归一化(BN)层的重要性,使用更现代的主干 VGG16-BN(带有 BN 层)而不是之前工作中使用的 VGG16 来展示它们对适应的影响。具体来说,仅通过调整未标记目标训练数据的批量统计数据(一种称为 AdaBN 的技术)被证明是 SFOD 的强大基线。其次,我们提出将无偏见教师(UT)直接扩展到无源设置,称为无源无偏见教师(SF-UT)。最后,我们探索了 SFOD 自我训练策略的各种配置(见图 1)。这包括不同的教师 EMA 更新率、弱强增强的使用以及批量统计数据的适应。我们研究了教师更新率 α 的极端情况,范围从 α = 0(相当于仅使用未标记数据的伪标签训练(Pseudo-Label training)的无源版本,SF-PL)到 α = 1(对应于固定的教师,即在源训练模型产生的固定初始伪标签集上进行训练)。当 SF-PL 与弱强增强相结合时,它相当于 FixMatch的无源版本 (SF-FM) 。对于后者 α = 1 的情况(即固定伪标签),我们将它们分别称为Fixed SF-PL 和Fixed SF-FM,分别用于有和没有弱强增强的情况。我们证明了 AdaBN + Fixed SF-FM 方法,使用由预先使用 AdaBN 适应目标域的源模型生成的固定初始伪标签,其效果几乎与适用于源的成熟的 Unbiased Teacher 一样有效(本文SF-UT)。我们提出的方法 AdaBN + Fixed SF-FM 具有稳定训练的优点,因为它在教师和学生之间没有反馈循环,同时实现了类似的良好性能。
图1:具有不同教师更新率α和使用弱-强增强的SFOD的无源平均教师配置概述。α = 0(即教师=学生)的极端情况分别对应于(无源)Pseudo-Label 和FixMatch。α = 1可以表示为将教师冻结并在一组固定的伪标签上进行训练。令人惊讶的是,AdaBN之后的固定伪标签训练产生的效果与更复杂的师生相互学习相似,并对最先进的SFOD方法提出了挑战。
2.5、本文贡献
1)我们强调了批归一化层的重要性,并证明了批统计适应无源目标检测任务的有效性。
2)我们介绍了一个无源扩展的无偏教师(SF-UT)。
3)我们提出了一种新颖的轻量级策略,将AdaBN与使用弱-强增强的一组固定伪标签的训练相结合(AdaBN + Fixed SF-FixMatch)。
4)我们在三种 SFOD 适应场景中进行了实验:恶劣天气适应(Cityscapes→Foggy-Cityscapes)、跨摄像机适应(KITTI→Cityscapes)和合成到真实的适应(SIM10k→Cityscapes)。与更复杂的最先进 SFOD 方法相比,我们证明了 SF-UT 具有优越或接近的性能。此外,简单的AdaBN+Fixed SF-FixMatch策略也取得了有竞争力的结果,并避免了师生方法中常见的崩溃。
3、Related work
3.1、UDA for Object Detection (UDAOD)
1)领域自适应的目的是将学习到的知识从源领域转移到目标领域。在无监督域自适应(Unsupervised Domain Adaptation,UDA)中,源域中有标记的数据可用,目标域中只有未标记的样本可用。大多数UDA方法共享的主要原则是在对源数据联合执行有监督训练的同时显式地减少域移位。域差异的减少可以通过匹配源和目标的特征分布、最优传输或通过核学习或域对抗训练来学习域不变特征来实现。
2)在用于目标检测任务(UDAOD)的 UDA 中,一种流行的方法是通过域对抗训练在图像或实例级别对齐源域和目标域之间的特征,包括 DA-Faster 、SW-Faster、SSA-DA、ICR-CCR、SGA-S、ATF、MeGACDA 和 CST-DA。还研究了在目标域上使用伪标签的方法。例如,NL 设计了一种用于目标检测的鲁棒噪声训练方案,该方案在从目标域获取具有噪声的边界框和标签作为伪真实值进行训练。MTOR、UMT 和 AT 采用 Mean Teacher (MT) 架构。SAPNet利用了注意力机制来关注最具区别性的特征。
3.2、Source-Free Object Detection (SFOD)
无源目标检测(SFOD)由于无法在没有源域数据的情况下显式地减少域差异而具有挑战性。最近,已经提出了几种方法来解决这个问题。由于只有未标记的目标数据可用,他们采用对目标样本进行伪标签的自我训练策略。SED 采用自熵下降策略获得合适的伪标签置信阈值。HCL 探索了基于记忆的学习,针对实例区分和类别区分提出了历史对比学习方法。最近的方法基于 Mean Teacher 范式,并结合各种附加对齐、伪标签选择或正则化策略。SOAP 使用对抗性学习,通过用特定领域的噪声扰乱目标图像来转移检测器。同样,LODS 通过增强每个目标域图像的风格,并利用原始图像与增强图像之间的风格程度差异来指导自适应,从而学习域转移。A2SFOD 提出了一种分四个阶段的方法,根据方差标准对目标数据进行划分,并通过对抗性训练对其特征进行对齐。IRG 使用图卷积网络增加了基于学习实例关系的图引导约束损失。ESOD 使用熵最小化来寻找最优置信阈值。在RPL 中,MT 架构利用了类别感知的伪标签自适应阈值和定位感知的伪标签分配策略。Chen等人为空间对比损失项中使用的低置信度提案引入了第二个置信度阈值。最后,PETS 通过定期交换教师和学生,以及增加一个更新较慢的动态教师来稳定训练,解决了师生相互学习崩溃的问题。
3.3、Self-training
1)对置信伪标签(PL)进行自我训练是半监督学习(SSL)中的一种有效技术。对未标记数据的置信预测会被当作伪标签,并添加到下一轮训练的标记数据中。FixMatch 提出利用弱-强增强,并使用来自弱增强输入的得到伪标签作为强增强输入的监督目标。
2)Mean Teacher (MT)是 temporal ensembling 的变体,其中知识通过一致性损失或伪标签策略从教师网络中提取到学生网络中。学生通过标准的梯度学习进行更新,而教师通过先前学生权重的指数移动平均值(EMA)逐渐更新,从而得到先前学生迭代的集合。该方法旨在提高对未标记目标数据的不准确和噪声预测的鲁棒性。与之前维持保持EMA 的工作不同,权重 EMA 允许更短的更新周期,因为预测每个周期仅更改一次,而权重每一步都会更改。
3)Unbiased Teacher (UT)提出了一种弱-强增强的Mean Teacher算法,用于半监督目标检测。经过一个纯源训练阶段后,教师接受弱增强的目标数据输入,生成伪标签来训练接受强增强输入的学生。 Adaptive Teacher 将UT扩展到无监督域自适应,此外它采用了对抗性学习,在学生网络中结合了一个鉴别器来对齐两个领域的图像级特征。
4、Benchmark results
在本节中,我们将本文提出的 SF-UT 与 UDAOD 和 SFOD 的各种最先进的方法进行比较。三个适应任务的结果显示在表 3、表 4 和表 5 中。我们还根据论文和可用代码指出了每种方法的主干。请注意对于 VGG16 主干,作者并不总是指出 BN 的存在。
在所有比较的 SFOD 方法中,SF-UT 在 Cityscapes→Foggy 上表现出最好的性能,mAP 为 45.0%,大大优于之前最先进的 RPL。这部分归功于 VGG16-BN 主干网的优越性。因此,我们还对之前方法中使用的 VGG16 主干进行了实验。在这种情况下,SF-UT 达到 39.2 mAP,仍然接近最先进的水平。然而SF-UT 要简单得多,并且不包含其他更复杂方法中使用的正则化、对齐或伪标签增强技术。
5、Conclusion
在这项研究中,我们研究和评估了简单而有效的无源域自适应目标检测方法。在展示了批量归一化的重要性和AdaBN的有效性之后,我们提出了一种无源无偏教师(SF-UT),在Foggy-Cityscapes上取得了最先进的性能,在其他基准测试上取得了具有竞争力的结果。此外,我们引入了一种简单的策略,包括在批量统计适应(AdaBN + fixed SF-FM)之后对一组固定的伪标签进行强增强训练,也产生了令人满意的性能,并显著减轻了自训练中的崩溃问题。 总的来说,我们展示了如何以更简单的方法超越以前复杂得多的SFOD方法。
许多现代架构,如ConvNeXt或Transformers,都支持GroupNorm或LayerNorm。据我们所知,GN和LN层对域适应的适应尚未被探索,并且是一个有趣的研究视角。作为未来工作的一部分,我们还考虑评估各种不同的骨干和检测器。