当前位置：首页 > news >正文

YOLO-World检测一切！一次性讲清YOLO全家桶

news 2025/4/3 11:22:10

【YOLO-World】是腾讯团队提出的一种超级轻量级开放词汇检测方法，模型基于实现文本编码与解码的Clip结构模型和实现图像特征提取支持对象检测的Ultralytics YOLOv8模型构建，可根据提示与描述性文本实现检测图像中的任何物体，大幅降低计算要求，同时具有杰出的性能指标。

事实上，距离 You Only Look Once（YOLO 第1代）在2015年由 Joseph Redmon 等人首次提出，YOLO 历经10年已经更新到了第10代，随着时间发展，期间也出现了许多变体，每个版本都在性能和速度上有所提升。

沃的顶会精心整理了一份【目标检测算法YOLO系列全家桶+YOLO系列经典算法课程（含上下两节）】资料，助力各位的学习研究！

需要的同学添加公众号【沃的顶会】回复 YOLO 即可全部领取

YOLO-World

论文标题：YOLO-World: Real-Time Open-Vocabulary Object Detection

方法：开放词汇表检测器YOLO-World采用文本作为输入，文本编码器首先编码输入的文本，然后将输入图像编码成多尺度图像特征，RepVL-PAN算法利用图像和文本特征的多级交叉模态融合。最后，预测回归边界框和对象编码，以匹配输入文本中出现的类别或名词。

创新点：

1）引入了 YOLO-World，这是一种创新方法，通过视觉语言建模和在大规模数据集上的预训练，增强了 YOLO 的开放词汇检测能力。

2）提出了一种新的可重新参数化的视觉-语言路径聚合网络（RepVL-PAN）和区域-文本对比损失，以促进视觉和语言信息之间的交互。

3）引入了 "先提示后检测 "的策略，利用离线词汇进一步提高效率。

YOLOv10

论文标题：YOLOv10: Real-Time End-to-End Object Detection

方法：YOLOv10 从后处理和模型架构方面进一步提升了 YOLO 的性能 - 效率边界：首先提出了 YOLO 无 NMS 训练的一致双重分配，这带来了竞争力的性能和低推理延迟。此外，介绍了整体效率-精度驱动的模型设计策略，包括轻量级分类头、空间通道解耦下采样和大内核卷积等，从效率和准确率两个角度全面优化 YOLO 的各个组件，大大降低了计算开销，提高了模型的性能。

创新点：

1）本文提出了一个新的无 NMS 训练的一致双重分配，减少了后处理对NMS的依赖导致训练时的延迟，从而提高了检测速度并减少了超参数的影响。

2）作者还提出了一种全面的效率和准确性驱动的设计策略，该策略涵盖了多个组件，包括轻量级分类头、空间通道分离下采样和排名引导块等设计，以提高模型的效率和准确性。