当前位置：首页 > news >正文

yolov10算法原理

news 2025/4/3 11:17:44

文章目录

1. 模型效果
2. 模型特点
- 2.1 无NMS训练的一致性双重分配策略 (Consistent Dual Assignments for NMS-free Training)
- - 双重标签分配 (Dual Label Assignments)
  - 一致匹配度量（Consistent Match. Metric）
  - 一对一分配在一对多结果中的频率
- 2.2. 效率-准确性驱动的YOLO模型设计策略
- - 准确性驱动模型设计
  - 效率驱动模型设计
3. 参考文章

论文链接：https://arxiv.org/abs/2405.14458
代码链接：https://github.com/THU-MIG/yolov1

1. 模型效果

在这里插入图片描述
针对YOLO模型，在后处理方面，提出了一致性双重分配策略用于NMS训练，从而实现高效的端到端检测。模型架构方面，引入了全面的效率-准确性驱动模型设计策略，改善了性能和效率。

2. 模型特点

2.1 无NMS训练的一致性双重分配策略 (Consistent Dual Assignments for NMS-free Training)

在这里插入图片描述
(a) Consistent dual assignments for NMS-free training (b) Frequence of one-to-one assignments in Top-1/5/10 of one-to-many results for YOLOv8-s which employs 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=0.6 by default . For consistency, 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=0.6. For inconsistency, 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=2

双重标签分配 (Dual Label Assignments)

双重标签分配是YOLOv10中提出的一种NMS-free训练策略, 旨在兼顾one-to-many分配的丰富监督信号和one-to-one分配的高效率：

引入双头结构, 包含一个one-to-many head和一个one-to-one head。这两个head结构相同,
使用相同的损失函数, 但one-to-many head进行一对多标签分配, one-to-one head进行一对一标签分配。
训练时, 两个head同时优化, 让backbone和neck享受到one-to-many分配带来的丰富监督信号。
推理时, 舍弃one-to-many head, 仅使用one-to-one head进行预测。这样既不需要使用NMS后处理, 也不会带来额外的推理开销。
在one-to-one匹配中, 使用top-1选择, 即为每个gt选择一个最佳正样本, 其性能与使用Hungarian算法相当, 但节省了训练时间。

一致匹配度量（Consistent Match. Metric）

YOLOv10在两个分支中使用统一的matching metric来衡量预测框和GT间的匹配程度，公式为：
在这里插入图片描述
其中s表示空间因子, 即预测框的中心是否落在GT内部; p是分类置信度; b’和b分别是预测框和GT的坐标; α和β是平衡分类和回归任务的超参数。两个分支的α和β记为αA、βA和αB、βB。
为了让B的监督信息与A更加一致, 作者提出令αB = r·αA, βB = r·βA, 即B的超参数是A的r倍。通过数学推导, 可以证明当r=1时, 即αB=αA且βB=βA, 能够最小化A和B在理论上的监督差异。此时B选出的最佳正样本也同时是A的最佳正样本, 两个分支以一种更加协调的方式优化。

一对一分配在一对多结果中的频率

柱状图 (b) 展示了一对一分配在YOLOv8-S中的Top-1/5/10结果中的频率。

蓝色（Inconsistent）：表示不一致的情况。
橙色（Consistent）：表示一致的情况。

实验设置：
默认参数：对于一对多头（One-to-many head），𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=0.6
一致性参数：对于一对一头（One-to-one head），𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=0.6
非一致性参数：𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=2

从图中可以看出，采用一致性匹配度量的YOLOv8-S在Top-5和Top-10结果中具有更高的一致性频率。

引入Consistent matching metric的原因总结如下:

缩小Dual Label Assignments中两个分支的理论监督差异, 使其学习目标更加一致。
通过控制超参数的关系, 让两个分支以更加协调的方式优化, 使one-to-one分支的预测结果更加优质。
在实验中验证, Consistent matching metric能够显著提升one-to-one分支的性能, 缩小其与one-to-many分支的差距。
无需针对one-to-one分支额外调参, 大大简化了训练流程。

2.2. 效率-准确性驱动的YOLO模型设计策略

除了后处理，YOLO模型的架构设计对效率-准确性权衡也提出了巨大挑战。尽管之前的研究探索了多种设计策略，但对YOLO各个组件进行全面检查仍然不足。因此，YOLO模型架构表现出明显的计算冗余和受限的能力，阻碍了其在效率和性能方面的潜力。这里，我们旨在从效率和准确性两个方面对YOLO模型进行全面的设计。

在这里插入图片描述

图表 (a) 展示了YOLOv8不同模型（N、S、M、L、X）在各个阶段的内在秩值。每个阶段在骨干网络（backbone）和颈部（neck）中按模型前向过程的顺序编号。
Y轴：表示归一化的数值秩值 r/Co，阈值默认设置为λmax/2 ，其中Co 表示输出通道数，λmax是最大奇异值。
X轴：表示模型的不同阶段，从Stage 1到Stage 8。
观察：可以看到深层阶段和大模型表现出较低的内在秩值。这表明这些阶段和模型可能存在更多的计算冗余。

图 (b) 紧凑反向瓶颈模块（CIB, Compact Inverted Bottleneck），结构说明：
1×1卷积：用于特征的通道转换。
3×3深度卷积（DW）：用于特征的空间转换。
CIB模块：通过多层卷积和非线性激活函数进行特征提取和转换。
N个堆叠的CIB模块：可以通过重复堆叠实现更深层次的特征提取。
特点：CIB可以用于替换YOLOv8中内在秩较低阶段的基本模块, 在保持性能的同时降低计算开销。

图 (c`) 部分自注意力模块（PSA），结构说明：
1×1卷积：用于特征的通道转换和分割（split）。
多头自注意力模块（MHSA）：用于全局特征建模。
前馈网络（FFN）：用于特征变换。
N_psa个堆叠的PSA模块：通过重复堆叠实现更强的特征建模能力。
将特征在channel维度均匀分成两部分, 一部分送入多头自注意力(MHSA)和前馈网络(FFN), 与另一部分concat后用1x1卷积融合。PSA只放在最后一个stage, 在引入全局建模能力的同时控制了计算量。

准确性驱动模型设计

大核卷积
采用大核深度卷积是扩大感受野和增强模型能力的有效方式。然而，简单地在所有阶段采用大核卷积可能会对用于检测小物体的浅层特征造成污染，同时在高分辨率阶段引入显著的I/O开销和延迟。因此，我们建议在CIB的深层阶段中使用大核深度卷积。具体来说，我们将CIB中第二个3×3深度可分离卷积的核尺寸增大到7×7。此外，我们采用结构重新参数化技术，在不增加推理开销的情况下添加另一个3×3深度可分离卷积分支，以缓解优化问题。此外，随着模型规模的增加，其感受野自然扩展，使用大核卷积的好处会减小。因此，我们仅在小规模模型中采用大核卷积。
部分自注意力（PSA）
自注意力由于其出色的全局建模能力在各种视觉任务中得到了广泛应用。然而，它具有较高的计算复杂度和内存占用。为了解决这个问题，鉴于注意力头冗余的普遍性，论文提出了一种高效的部分自注意力模块设计。旨在以较低的计算开销捕获全局依赖关系, 提升模型的特征表示能力。

效率驱动模型设计

YOLO的组件包括起始层、下采样层、具有基本构建块的各阶段以及头部。由于起始层的计算成本较低，因此我们主要针对其他三个部分进行效率驱动的模型设计。

轻量级分类头
在YOLO中，分类头和回归头通常共享相同的架构。然而，它们在计算开销上存在显著差异。例如，在YOLOv8-S中，分类头的FLOPs和参数数量分别是回归头的2.5倍和2.4倍。然而，通过分析分类错误和回归错误对性能的影响，我们发现回归头对YOLO性能的影响更大。因此，我们可以减少分类头的开销而不会显著影响性能。因此，我们采用了轻量级架构的分类头，它由两个3×3的深度可分离卷积和一个1×1卷积组成。
SCDown
Spatial-channel decoupled downsampling （空间-通道解耦下采样）是YOLOv10中提出的一种提高下采样效率的方法。
采用depthwise卷积进行spatial mixing, pointwise卷积进行channel mixing, 是一种计算高效的模块。即首先利用点卷积调节通道维度，然后利用深度可分离卷积进行空间下采样。
Spatial-channel decoupled downsampling是YOLOv10中提出的一种提高下采样效率的方法。
采用depthwise卷积进行spatial mixing, pointwise卷积进行channel mixing, 是一种计算高效的模块。即首先利用点卷积调节通道维度，然后利用深度可分离卷积进行空间下采样。
基于秩的模块设计
内在秩(Intrinsic Rank)是评估卷积层冗余度的一个指标, 它反映了卷积核张量的有效维度。作者提出了一种秩引导的模块替换策略(Rank-guided Block Design)。即针对内在秩较低的阶段, 将原有的基础模块替换为更加轻量化的CIB模块。总的来说, 内在秩度量了卷积层的信息冗余程度, 是一个简洁而有效的指标。

总结：yolov10是在yolov8的基础上做了改进，如下图第5步SC-Down、第8步C2f-CIB、第10步PSA、第23步预测头部等。

在这里插入图片描述