D-FINE:在DETRs模型中将回归任务重新定义为细粒度分布优化
晚上回家看到一篇新颖的研究内容, 也是目标检测相关的《D-FINE: REDEFINE REGRESSION TASK IN DETRS AS FINE-GRAINED DISTRIBUTION REFINEMENT》 ,原文地址在这里,如下所示:
如果想进一步了解相关的研究工作建议移步阅读原英文论文,本文主要是记录自己论文阅读的内容记录,感兴趣的话可以参考一下。
摘要
我们介绍了D-FINE,一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。D-FINE包含两个关键组件:细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代优化概率分布,提供了一种细粒度的中间表示,显著提高了定位精度。GO-LSD是一种双向优化策略,通过自蒸馏将定位知识从优化后的分布传递到较浅层,同时简化了较深层的目标残差预测任务。此外,D-FINE在计算密集型模块和操作中采用了轻量级优化,实现了速度和精度之间的更好平衡。具体而言,D-FINE-L/X在NVIDIA T4 GPU上以124/78 FPS的速度在COCO数据集上达到了54.0%/55.8%的AP。在Objects365上预训练后,D-FINE-L/X分别达到了57.1%/59.3%的AP,超越了所有现有的实时检测器。此外,我们的方法显著提升了各种DETR模型的性能,最高可达5.3%的AP,且额外参数和训练成本几乎为零。我们的代码和预训练模型:https://github.com/Peterande/D-FINE。
1 引言
实时目标检测的需求在各种应用中不断增加(Arani et al., 2022)。最具影响力的实时检测器之一是YOLO系列(Redmon et al., ; Wang et al., , ; Glenn., 2023; Wang & Liao, 2024; Wang et al., ; Glenn., 2024),以其效率和强大的社区生态系统而闻名。作为强有力的竞争者,检测Transformer(DETR)(Carion et al., 2020; Zhu et al., 2020; Liu et al., 2021; Li et al., 2022; Zhang et al., 2022)由于其基于Transformer的架构,允许全局上下文建模和直接集合预测,无需依赖非极大值抑制(NMS)和锚框。然而,它们通常受到高延迟和计算需求的限制(Zhu et al., 2020; Liu et al., 2021; Li et al., 2022; Zhang et al., 2022)。RT-DETR(Zhao et al., 2024)通过开发实时变体解决了这些限制,为YOLO检测器提供了端到端的替代方案。此外,LW-DETR(Chen et al., 2024)表明,DETR在像Objects365(Shao et al., 2019)这样的大规模数据集上训练时,可以比YOLO达到更高的性能上限。
尽管在实时目标检测方面取得了显著进展,但仍有一些未解决的问题继续限制检测器的性能。一个关键挑战是边界框回归的公式化。大多数检测器通过回归固定坐标来预测边界框,将边缘视为由狄拉克δ分布建模的精确值(Liu et al., 2016; Ren et al., 2015; Tian et al., 2019; Lyu et al., 2022)。虽然简单,但这种方法未能建模定位不确定性。因此,模型被迫使用L1损失和IoU损失,这些损失在独立调整每个边缘时提供的指导不足(Girshick, 2015)。这使得优化过程对小的坐标变化敏感,导致收敛缓慢和次优性能。尽管像GFocal(Li et al., 2020, 2021)这样的方法通过概率分布解决了不确定性问题,但它们仍然受限于锚依赖性、粗定位和缺乏迭代优化。另一个挑战在于最大化实时检测器的效率,这些检测器受限于有限的计算和参数预算以保持速度。知识蒸馏(KD)是一种有前途的解决方案,通过将知识从更大的教师模型转移到更小的学生模型来提高性能,而无需增加成本(Hinton et al., 2015)。然而,传统的KD方法如Logit Mimicking和Feature Imitation已被证明对检测任务效率低下,甚至可能导致最先进模型的性能下降(Zheng et al., 2022)。相比之下,定位蒸馏(LD)在检测方面显示出更好的结果。然而,由于其显著的训练开销和不兼容无锚检测器,集成LD仍然具有挑战性。
为了解决这些问题,我们提出了D-FINE,一种新颖的实时目标检测器,重新定义了边界框回归并引入了一种有效的自蒸馏策略。我们的方法解决了固定坐标回归中的优化困难、无法建模定位不确定性以及需要有效的蒸馏且训练成本较低的问题。我们引入了细粒度分布优化(FDR),将边界框回归从预测固定坐标转变为建模概率分布,提供了一种更细粒度的中间表示。FDR以残差方式迭代优化这些分布,允许逐步进行更精细的调整,从而提高定位精度。认识到较深层通过其概率分布捕捉更丰富的定位信息从而产生更准确的预测,我们引入了全局最优定位自蒸馏(GO-LSD)。GO-LSD将定位知识从较深层传递到较浅层,几乎没有额外的训练成本。通过将较浅层的预测与较后层的优化输出对齐,模型学会了产生更好的早期调整,加速收敛并提高整体性能。此外,我们在现有的实时DETR架构(Zhao et al., 2024; Chen et al., 2024)中简化了计算密集型模块和操作,使D-FINE更快更轻量。尽管这些修改通常会导致性能损失,但FDR和GO-LSD有效地缓解了这种降级,实现了速度和精度之间的更好平衡。
在COCO数据集(Lin et al., )上的实验结果表明,D-FINE在实时目标检测中达到了最先进的性能,超越了现有模型在准确性和效率方面的表现。D-FINE-L和D-FINE-X在COCO va12017上分别达到了54.0%和55.8%的AP,在NVIDIA T4 GPU上以124 FPS和78 FPS的速度运行。在像Objects365(Shao et al., 2019)这样的更大数据集上预训练后,D-FINE系列达到了高达59.3%的AP,超越了所有现有的实时检测器,展示了其可扩展性和鲁棒性。此外,我们的方法在几乎没有额外参数和训练成本的情况下,将各种DETR模型的性能提升了高达5.3%的AP,展示了其灵活性和通用性。总之,D-FINE推动了实时检测器的性能边界。通过通过FDR和GO-LSD解决边界框回归和蒸馏效率的关键挑战,我们为对象检测领域提供了有意义的进步,激发了进一步的探索。
2 相关工作
实时/端到端目标检测器。 YOLO系列在实时目标检测中处于领先地位,通过架构、数据增强和训练技术的创新不断发展(Redmon et al., ; Wang et al., , ; Glenn., 2023; Wang & Liao, 2024; Wang et al., ; Glenn., 2024)。尽管高效,YOLO通常依赖于非极大值抑制(NMS),这引入了速度和精度之间的延迟和不稳定性。DETR(Carion et al., 2020)通过消除像NMS和锚框这样的手工组件,彻底改变了目标检测。传统的DETR(Zhu et al., 2020; Meng et al., 2021; Zhang et al., 2022; Wang et al., 2022; Liu et al., 2021; Li et al., 2022; Chen et al., )取得了优异的性能,但以高计算需求为代价,使其不适合实时应用。最近,RT-DETR(Zhao et al., 2024)和LW-DETR(Chen et al., 2024)成功地将DETR适应于实时使用。同时,YOLOv10(Wang et al., )也消除了对NMS的需求,标志着YOLO系列向端到端检测的重大转变。
基于分布的目标检测。 传统的边界框回归方法(Redmon et al., ; Liu et al., 2016; Ren et al., 2015)依赖于狄拉克δ分布,将边界框边缘视为精确和固定的,这使得建模定位不确定性具有挑战性。为了解决这个问题,最近的模型采用了高斯或离散分布来表示边界框(Choi et al., 2019; Li et al., 2020; Qiu et al., 2020; Li et al., 2021),增强了不确定性的建模。然而,这些方法都依赖于基于锚框的框架,这限制了它们与现代无锚检测器如YOLOX(Ge et al., 2021)和DETR(Carion et al., 2020)的兼容性。此外,它们的分布表示通常以粗粒度方式制定,缺乏有效的优化,阻碍了它们实现更准确预测的能力。
知识蒸馏。 知识蒸馏(KD)(Hinton et al., 2015)是一种强大的模型压缩技术。传统的KD通常通过Logit Mimicking(Zagoruyko & Komodakis, 2017; Mirzadeh et al., 2020; Son et al., 2021)转移知识。FitNets(Romero et al., 2015)最初提出了特征模仿,这激发了一系列后续工作进一步扩展了这一想法(Chen et al., 2017; Dai et al., 2021; Guo et al., 2021; Li et al., 2017; Wang et al., 2019)。大多数针对DETR的方法(Chang et al., 2023; Wang et al., )结合了logit和各种中间表示的混合蒸馏。最近,定位蒸馏(LD)(Zheng et al., 2022)表明,转移定位知识对检测任务更有效。自蒸馏(Zhang et al., 2019, 2021)是KD的一种特殊情况,它使较早层能够从模型自身的优化输出中学习,由于无需单独训练教师模型,因此需要更少的额外训练成本。
3 预备知识
边界框回归在目标检测中传统上依赖于建模狄拉克δ分布,使用基于质心的{x,y,w,h}或边缘距离{c,d}形式,其中距离d={t,b,l,r}从锚点c={xc,yc}测量。然而,狄拉克δ假设将边界框边缘视为精确和固定的,这使得建模定位不确定性,特别是在模糊情况下,变得困难。这种刚性表示不仅限制了优化,还导致在小预测偏移时出现显著的定位误差。
为了解决这些问题,GFocal(Li et al., 2020, 2021)使用离散概率分布回归从锚点到四个边缘的距离,提供了更灵活的边界框建模。在实践中,边界框距离d={t,b,l,r}被建模为:
其中dmax是一个标量,限制了从锚点中心的最大距离,P(n)表示四个边缘的每个候选距离的概率。尽管GFocal通过概率分布在处理模糊性和不确定性方面迈出了一步,但其回归方法仍存在特定挑战:(1)锚依赖性:回归与锚框中心绑定,限制了预测多样性和与无锚框架的兼容性。(2)无迭代优化:预测一次性完成,没有迭代优化,降低了回归的鲁棒性。(3)粗定位:固定距离范围和均匀的bin间隔可能导致粗定位,特别是对于小物体,因为每个bin代表了一个广泛的潜在值范围。
**定位蒸馏(LD)**是一种有前途的方法,表明转移定位知识对检测任务更有效(Zheng et al., 2022)。基于GFocal,它通过从教师模型中蒸馏有价值的定位知识来增强学生模型,而不仅仅是模仿分类logits或特征图。尽管有其优势,该方法仍依赖于基于锚框的架构,并带来了额外的训练成本。
4 方法
我们提出了D-FINE,一种强大的实时目标检测器,在速度、大小、计算成本和准确性方面表现出色。D-FINE通过利用两个关键组件:细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD),解决了现有边界框回归方法的不足,显著提升了性能,且额外参数和训练时间成本几乎为零。
(1)FDR迭代优化概率分布,作为对边界框预测的修正,提供了一种更细粒度的中间表示。这种方法独立捕捉和优化每个边缘的不确定性。通过利用非均匀加权函数,FDR允许在每个解码器层进行更精确和增量的调整,提高定位精度并减少预测误差。FDR在无锚、端到端框架内运行,实现了更灵活和鲁棒的优化过程。
(2)GO-LSD将优化后的分布中的定位知识蒸馏到较浅层。随着训练的进行,最终层产生越来越精确的软标签。较浅层通过GO-LSD将其预测与这些标签对齐,从而产生更准确的预测。随着早期预测的改进,后续层可以专注于优化较小的残差。这种相互促进产生了协同效应,导致定位精度逐步提高。
为了进一步提高D-FINE的效率,我们在现有的实时DETR架构(Zhao et al., 2024)中简化了计算密集型模块和操作,使D-FINE更快更轻量。尽管这些修改通常会导致一些性能损失,但FDR和GO-LSD有效地缓解了这种降级。详细的修改列在表3中。
细粒度分布优化
**细粒度分布优化(FDR)**迭代优化由解码器层生成的细粒度分布,如图2所示。最初,第一解码器层通过传统的边界框回归头和D-FINE头预测初步边界框和初步概率分布(两个头都是MLP,只是输出维度不同)。每个边界框关联四个分布,每个边缘一个。初始边界框作为参考框,后续层通过以残差方式调整分布来优化它们。优化后的分布然后应用于调整相应初始边界框的四个边缘,逐步提高其准确性。
数学上,设b0={x,y,W,H}表示初始边界框预测,其中{x,y}表示预测的边界框中心,{W,H}表示框的宽度和高度。我们可以将b0转换为中心坐标c0={x,y}和边缘距离d0={t,b,l,r},表示从中心到顶部、底部、左侧和右侧边缘的距离。对于第l层,优化后的边缘距离dl={tl,bl,ll,rl}计算为:
其中Prl(n)={Prtl(n),Prbl(n),Prll(n),Prrl(n)}表示四个独立的分布,每个分布预测相应边缘的候选偏移值的概率。这些候选值由加权函数W(n)确定,其中n索引离散的bin,每个bin对应一个潜在的边缘偏移。分布的加权和产生边缘偏移。这些边缘偏移然后按初始边界框的高度H和宽度W缩放,确保调整与框的大小成比例。
优化后的分布使用残差调整进行更新,定义如下:
其中前一层的logits logitsl-1(n)反映了每个bin的偏移值的置信度。当前层预测残差logits Δlogitsl(n),将其添加到前一层的logits形成更新后的logits logitsl(n)。这些更新后的logits然后使用softmax函数进行归一化,产生优化后的概率分布。
为了促进精确和灵活的调整,加权函数W(n)定义为:
其中a和c是控制函数上界和曲率的超参数。如图2所示,W(n)的形状确保当边界框预测接近准确时,W(n)的小曲率允许进行更精细的调整。相反,如果边界框预测远离准确,W(n)边缘附近的大曲率和急剧变化确保了足够的灵活性进行大幅度的修正。
为了进一步提高我们分布预测的准确性并将其与真实值对齐,受分布焦点损失(DFL)(Li et al., 2020)的启发,我们提出了一种新的损失函数,细粒度定位(FGL)损失,计算如下:
全局最优定位自蒸馏
**全局最优定位自蒸馏(GO-LSD)**利用最终层的优化分布预测将定位知识蒸馏到较浅层,如图3所示。该过程首先对每层的预测应用匈牙利匹配(Carion et al., 2020),识别模型每个阶段的局部边界框匹配。为了进行全局优化,GO-LSD将所有层的匹配索引聚合到一个统一的并集集合中。这个并集集合结合了各层中最准确的候选预测,确保它们都从蒸馏过程中受益。除了优化全局匹配外,GO-LSD还在训练期间优化未匹配的预测,以提高整体稳定性,从而提高整体性能。尽管通过这个并集集合优化了定位,分类任务仍然遵循一对一匹配原则,确保没有冗余框。这种严格的匹配意味着并集集合中的一些预测具有高IoU但低置信度。这些低置信度预测通常代表具有精确定位的候选对象,仍需要有效地蒸馏。
为了解决这个问题,我们引入了解耦蒸馏焦点(DDF)损失,应用解耦加权策略,确保高IoU但低置信度的预测得到适当的权重。DDF损失还根据匹配和未匹配预测的数量对其整体贡献和个体损失进行加权。这种方法导致更稳定和有效的蒸馏。解耦蒸馏焦点损失LDDF公式如下:
其中KL表示Kullback-Leibler散度(Hinton et al., 2015),T是用于平滑logits的温度参数。第k个匹配预测的蒸馏损失加权为αk,其中Km和Ku分别是匹配和未匹配预测的数量。对于第k个未匹配预测,权重为βk,Confk表示分类置信度。
5 实验
实验设置
为了验证我们提出的方法的有效性,我们在COCO(Lin et al., )和Objects365(Shao et al., 2019)数据集上进行了实验。我们使用标准的COCO指标评估我们的D-FINE,包括从0.50到0.95的IoU阈值上的平均精度(AP),以及特定阈值(AP50和AP75)和不同对象尺度(AP_S、AP_M和AP_L)的AP。此外,我们通过报告参数数量(#Params.)、计算成本(GFLOPs)和端到端延迟来提供模型效率指标。延迟使用TensorRT FP16在NVIDIA T4 GPU上测量。
与实时检测器的比较
表1提供了D-FINE与各种实时目标检测器在COCO va12017上的全面比较。D-FINE在多个指标上实现了效率和准确性的出色平衡。具体而言,D-FINE-L以31M参数和91 GFLOPs达到了54.0%的AP,延迟为8.07 ms。此外,D-FINE-X以62M参数和202 GFLOPs达到了55.8%的AP,延迟为12.89 ms。
如图1所示,显示了延迟与AP、参数计数与AP以及FLOPs与AP的散点图,D-FINE在所有关键维度上始终优于其他最先进的模型。D-FINE-L在AP(54.0%)上超过了YOLOv10-L(53.2%)、RT-DETR-R50(53.1%)和LW-DETR-X(53.0%),同时需要的计算资源更少(91 GFLOPs vs. 120、136和174)。同样,D-FINE-X在性能(55.8% AP vs. 54.4%和54.3%)和效率方面优于YOLOv10-X和RT-DETR-R101,在参数计数、GFLOPs和延迟方面表现更好。
我们进一步在Objects365数据集(Shao et al., 2019)上预训练D-FINE和YOLOv10,然后在COCO上进行微调。预训练后,D-FINE-L和D-FINE-X都显示出显著的性能提升,分别达到了57.1%和59.3%的AP。这些提升使它们分别比YOLOv10-L和YOLOv10-X高出3.1%和4.4%的AP,从而使它们成为本次比较中表现最好的模型。更重要的是,按照YOLOv8(Glenn., 2023)的预训练协议,YOLOv10在Objects365上预训练了300个epoch。相比之下,D-FINE仅需21个epoch即可实现其显著的性能提升。这些发现证实了LW-DETR(Chen et al., 2024)的结论,表明DETR模型比其他检测器如YOLO从预训练中受益更多。
在各种DETR模型上的有效性
表2展示了我们提出的FDR和GO-LSD方法在COCO vall2017上跨多个DETR基目标检测器的有效性。我们的方法设计灵活,可以无缝集成到任何DETR架构中,显著提升性能,而不会增加参数数量和计算负担。将FDR和GO-LSD集成到Deformable DETR、DAB-DETR、DN-DETR和DINO中,一致提高了检测精度,增益范围从2.0%到5.3%。这些结果突显了FDR和GO-LSD在提高定位精度和最大化效率方面的有效性,展示了它们在各种端到端检测框架中的适应性和显著影响。
消融研究
5.4.1 D-FINE的发展路线图
表3展示了从基线模型(RT-DETR-HGNetv2-L(Zhao et al., 2024))到我们提出的D-FINE框架的逐步进展。从基线指标53.0% AP、32M参数、110 GFLOPs和9.25 ms延迟开始,我们首先移除了所有解码器投影层。这一修改将GFLOPs减少到97,并将延迟减少到8.02 ms,尽管AP下降到52.4%。为了解决这一下降,我们引入了目标门控层,恢复了AP到52.8%,计算成本仅略有增加。
目标门控层战略性地放置在解码器的交叉注意力模块之后,取代了残差连接。它允许查询在不同层之间动态切换其对不同目标的关注,有效防止信息纠缠。该机制操作如下:
其中x1表示前一层的查询,x2是交叉注意力的结果。σ是应用于连接输出的sigmoid激活函数,[.]表示连接操作。
接下来,我们将编码器的CSP层替换为GELAN层(Wang & Liao, 2024)。这一替换将AP提高到53.5%,但也增加了参数计数、GFLOPs和延迟。为了缓解增加的复杂性,我们将GELAN的隐藏维度减半,平衡了模型的复杂性并保持AP在52.8%,同时提高了效率。我们进一步通过在不同尺度上实施不均匀采样点(S: 3, M: 6, L: 3)来优化采样点,略微增加了AP到52.9%。然而,替代采样组合如(S: 6, M: 3, L: 3)和(S: 3, M: 3, L: 6)导致AP小幅下降0.1%。采用RT-DETRv2训练策略(Lv et al., 2024)(详见附录A.1.1)将AP提高到53.0%,而不影响参数数量或延迟。最后,集成FDR和GO-LSD模块将AP提升到54.0%,与基线模型相比,延迟减少了13%,GFLOPs减少了17%。这些增量修改展示了我们D-FINE框架的鲁棒性和有效性。
5.4.2 超参数敏感性分析
第5.4.1节展示了一部分超参数消融研究,评估了我们的模型对FDR和GO-LSD模块中关键参数的敏感性。我们检查了加权函数参数a和c、分布bin数N以及用于平滑logits的温度T。
(1) 设置a=1/2和c=1/4时,AP达到最高53.3%。值得注意的是,将a和c视为可学习参数(ã,c̃)略微降低了AP到53.1%,表明固定值简化了优化过程。当c极大时,加权函数近似于等间隔的线性函数,导致次优AP 53.0%。此外,a值过大或过小会降低精细度或限制灵活性,不利地影响定位精度。
(2) 增加分布bin数提高了性能,N=32时达到最大AP 53.7%。超过N=32,未观察到显著增益。(3) 温度T控制蒸馏过程中logits的平滑度。T=5时达到最佳AP 54.0%,表明在平滑分布和保留有效知识转移之间取得了平衡。
可视化分析
图4展示了FDR在各种检测场景中的过程。我们显示了过滤后的检测结果,图像上叠加了两个边界框。红色框表示第一解码器层的初始预测,绿色框表示最终解码层的优化预测。最终预测更紧密地与目标对象对齐。图像下方的第一行显示了四个边缘(左、上、右、下)的未加权概率分布。第二行显示了加权分布,其中应用了加权函数W(n)。红色曲线表示初始分布,绿色曲线表示最终优化分布。加权分布强调了在准确预测附近的更精细调整,并允许在较大调整时进行快速变化,进一步说明了FDR如何优化初始边界框的偏移,从而实现越来越精确的定位。
6 结论
在本文中,我们介绍了D-FINE,一种强大的实时目标检测器,通过细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)重新定义了DETR模型中的边界框回归任务。在COCO数据集上的实验结果表明,D-FINE在准确性和效率方面达到了最先进的性能,超越了所有现有的实时检测器。局限性和未来工作: 然而,较轻的D-FINE模型与其他紧凑型模型之间的性能差距仍然很小。一个可能的原因是浅层解码器可能产生不太准确的最终层预测,限制了将定位知识蒸馏到较早层的效果。解决这一挑战需要在不增加推理延迟的情况下增强较轻模型的定位能力。未来的研究可以探索先进的架构设计或新颖的训练范式,允许在训练期间包含额外的复杂解码器层,同时在测试时简单地丢弃它们以保持轻量级推理。我们希望D-FINE能激发这一领域的进一步进展。
附录A 附录
实现细节
A.1.1 超参数配置
表6总结了D-FINE模型的超参数配置。所有变体使用在ImageNet(Cui et al., 2021; Russakovsky et al., 2015)上预训练的HGNetV2主干和AdamW优化器。D-FINE-X的嵌入维度为384,前馈维度为2048,而其他模型分别使用256和1024。D-FINE-X和D-FINE-L有6个解码器层,而D-FINE-M和D-FINE-S分别有4个和3个解码器层。GELAN模块从D-FINE-X的192维度和3层逐步减少到D-FINE-S的64维度和1层。D-FINE-X和D-FINE-L的基础学习率和权重衰减分别为2.5×10-4和1.25×10-4,而D-FINE-M和D-FINE-S分别使用2×10-4和1×10-4。较小的模型也有比较大模型更高的主干学习率。总批量大小在所有变体中均为32。训练计划包括72个epoch的高级增强(RandomPhotometricDistort、RandomZoomOut、RandomIoUCrop和RMultiScaleInput),随后是2个epoch的无高级增强,适用于D-FINE-X和D-FINE-L,以及120个epoch的高级增强,随后是4个epoch的无高级增强,适用于D-FINE-M和D-FINE-S(RT-DETRv2训练策略(Lv et al., 2024)在表3中)。预训练epoch数为D-FINE-X和D-FINE-L模型21个epoch,而D-FINE-M和D-FINE-S模型为28到29个epoch。
A.1.2 数据集设置
对于预训练,按照(Chen et al., ; Zhang et al., 2022; Chen et al., 2024)的方法,我们将Objects365(Shao et al., 2019)训练集和验证集的图像合并,排除前5000张图像。为了进一步提高训练效率,我们将分辨率超过640×640的图像预先调整到640×640。我们使用标准的COCO2017(Lin et al., )数据分割策略,在COCO train2017上训练,并在COCO val2017上评估。
D-FINE预测的可视化
图5展示了D-FINE-X模型在各种挑战性场景中的鲁棒性,包括遮挡、低光条件、运动模糊、景深效果、旋转和密集场景。尽管存在这些困难,模型准确识别和定位了动物、车辆和人物等对象。这一可视化突显了模型在处理复杂现实条件的同时保持鲁棒检测性能的能力。
与较轻检测器的比较
表7展示了D-FINE模型与COCO va12017上各种轻量级实时目标检测器在S和M模型大小上的全面比较。D-FINE-S以10.2M参数和25.2 GFLOPs达到了48.5%的AP,延迟为3.49 ms,超过了其他轻量级模型如Gold-YOLO-S(46.4%)和RT-DETRv2-S(48.1%)。在Objects365上预训练后,D-FINE-S进一步提高到50.7%,提升了+2.2%。同样,D-FINE-M以19.2M参数和56.6 GFLOPs达到了52.3%的AP,延迟为5.62 ms,超过了YOLOv10-M(51.1%)和RT-DETRv2-M(49.9%)。在Objects365上预训练后,D-FINE-M一致提高,达到+2.8%的增益。这些结果表明,D-FINE模型在准确性和效率之间取得了很好的平衡,始终优于其他最先进的轻量级检测器,同时保持实时性能。
初始层优化的澄清
在正文中,我们将第l层的优化分布定义为:
论文发布的同时作者也开源了D-FINE模型的项目实现,地址在这里,如下所示:
目前已经收获将近500的star量了
官方同时提供和发布了COCO数据集上的预训练权重模型,如下所示:
Model | Dataset | APval | #Params | Latency | GFLOPs | config | checkpoint | logs |
---|---|---|---|---|---|---|---|---|
D-FINE-S | COCO | 48.5 | 10M | 3.49ms | 25 | yml | 48.5 | url |
D-FINE-M | COCO | 52.3 | 19M | 5.62ms | 57 | yml | 52.3 | url |
D-FINE-L | COCO | 54.0 | 31M | 8.07ms | 91 | yml | 54.0 | url |
D-FINE-X | COCO | 55.8 | 62M | 12.89ms | 202 | yml | 55.8 | url |
Objects365+COCO数据集的预训练权重,如下:
Model | Dataset | APval | #Params | Latency | GFLOPs | config | checkpoint | logs |
---|---|---|---|---|---|---|---|---|
D-FINE-S | Objects365+COCO | 50.7 | 10M | 3.49ms | 25 | yml | 50.7 | url |
D-FINE-M | Objects365+COCO | 55.1 | 19M | 5.62ms | 57 | yml | 55.1 | url |
D-FINE-L | Objects365+COCO | 57.3 | 31M | 8.07ms | 91 | yml | 57.3 | url |
D-FINE-X | Objects365+COCO | 59.3 | 62M | 12.89ms | 202 | yml | 59.3 | url |
今天时间不早了就到这里了,后面找时间来完整实践下D-FINE模型的效果。