利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
之前小编分享过关于《YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度》,改进YOLO11算法后,进行苹果树的实例分割。本期文章我们将分享关于最新的YOLO12算法改进的苹果目标检测。
论文题目:Improved YOLOv12 with LLM-Generated Synthetic Data for Enhanced Apple Detection and Benchmarking Against YOLOv11 and YOLOv10
论文链接:https://arxiv.org/pdf/2503.00057
目录
一、摘要
二、引言
三、目标
四、研究方法
使用LLM生成数据:DALL-E图像生成模型
训练 YOLOv12 物体检测模型
性能评估
实地评估
五、Coovally AI模型训练与应用平台
六、结果与讨论
性能指标评估
评估YOLOv12中使用的参数、GFLOP和层数
图像处理速度评估
利用真实图像进行实地验证
关于近期苹果检测研究的讨论
七、结论
八、未来
一、摘要
本研究评估了YOLOv12物体检测模型的性能,并与YOLOv11和YOLOv10进行了比较,以使用大型语言模型 (LLM) 生成的合成图像检测商业果园中的苹果。YOLOv12n配置表现出色,精确度最高,为0.916,召回率最高,为0.969,平均精确度 (mAP@50) 最高,为0.978。相比之下,YOLOv11系列由YOLO11x领先,其精确度最高,为0.857,召回率最高,为0.85,mAP@50最高,为0.91。在YOLOv10系列中,YOLOv10b和YOLOv10l的精确度并列最高,分别为0.85,YOLOv10n的召回率最高,为0.8,mAP@50为0.89。研究还强调了处理速度的效率,YOLOv11n的推理时间最少,仅为4.7毫秒,而YOLOv12n为5.6毫秒,YOLOv10n为5.9毫秒。虽然YOLOv12是比YOLOv11和YOLOv10更准确的新算法,但YOLO11n仍是YOLOv10、YOLOv11和YOLOv12中最快的YOLO算法。这些研究结果表明,YOLOv12在高质量的LLM生成的数据集上进行训练后,不仅在关键性能指标上超越,而且还减少了在现场进行大量人工数据收集的需要,从而提供了一种具有成本效益的解决方案。
二、引言
人工智能与图像分析技术的融合正在推动农业数字化转型,尤其在果园管理等复杂场景中,YOLO系列模型的持续演进为精准农业提供了关键技术支撑。自2016年YOLO开创实时检测先河以来,该系列通过YOLOv5/v8/v11等迭代逐步强化分割能力与检测精度。最新发布的YOLOv12通过架构创新实现了性能突破:在标准测试集上达到0.916边界框精度、0.972 mAP@50和0.969召回率,相较前代模型提升显著。
该模型系列提供N/S/M/L/X五种配置,其中轻量级YOLOv12-N在T4 GPU实现1.64ms推理速度,较YOLOv11提速37%。这种效率突破使其能够满足果园机器人实时作业需求,在复杂光照和枝叶遮挡条件下仍保持93%以上的苹果识别准确率。实验数据显示,YOLOv12-X版本对小型果实(直径<5cm)的检测精度较v11提升15.2%,显著降低自动化采收系统的漏检率。
模型创新主要体现在三个维度:
-
引入跨尺度特征融合模块,增强小目标检测能力;
-
优化损失函数设计,提升密集果实场景下的区分度;
-
采用动态计算架构,使不同配置模型在精度与速度间获得最佳平衡。
这些改进使YOLOv12成为首个在COCO-Agri专项测试集上mAP突破90%的农业专用检测模型,为智能农机装备提供了可靠的技术基座。
YOLO12的架构及创新可参考YOLOv12来袭!打破CNN主导,实现速度精度新高度,实时目标检测的效率之王!文章
三、目标
YOLOv12在结构上的创新极大地增强了其功效。它采用了基于卷积的注意力机制和分层设计等先进功能,从而增强了模型高精度处理和分析图像的能力。延长的训练时间、优化的卷积核大小以及无位置嵌入都对改进模型的性能起到了作用。这些进展不仅推动了物体检测技术的发展,也为未来人工智能在农业领域的应用奠定了基础,有望进一步提高自动化系统的效率和有效性Tian等人(2025年)。
-
生成并利用LLM生成的图像:利用LLM生成苹果园合成图像的综合数据集,专门用于训练YOLOv12模型,从而为可控和可扩展的训练环境提供便利。
-
评估模型性能:使用LLM生成的合成数据集,系统地评估和比较YOLOv12与其前身YOLOv11和YOLOv10在准确度、精确度和速度方面的性能。
-
使用真实图像进行实地验证:使用商业苹果园中机器视觉传感器收集的真实世界图像来验证训练有素的模型,从而测试机器视觉模型的实用性。
四、研究方法
本研究是在Sapkota等人(2024a)先前工作的基础上开展的,该研究证明了使用OpenAI的DALL-E生成的合成数据集训练YOLOv10和YOLOv11模型的可行性。本研究开发的合成数据集由489幅人工标注的图像组成,每幅图像的尺寸为1024x1024像素。这些图像是根据 “果园中被遮挡的苹果 ”等特定文本提示生成的,以确保生态逻辑的有效性。对YOLOv11和YOLOv10的不同配置进行了训练——YOLOv11有五个变体(YOLOv11n、YOLOv11s、YOLOv11m、YOLOv11l、YOLOv11x),YOLOv10有六个变体(YOLOv10n、YOLOv10s、YOLOv10m、YOLOv10b、YOLOv10l、YOLOv10x)。每个变体都针对果园环境中的特定检测要求进行了超参数优化。
-
使用LLM生成数据:DALL-E图像生成模型
本研究采用了由美国加利福尼亚州OpenAI公司开发的DALL-E 2图像生成模型。该模型采用分层文本条件图像生成策略,包括两阶段过程:从给定文本标题进行初始CLIP(对比语言-图像预训练)图像嵌入,以及随后的解码阶段生成图像。CLIP阶段利用强大的图像表征,整合文本的主题和风格元素,促进生成不仅逼真而且与上下文相关的图像。
DALL-E 2的流程分为三个核心阶段:编码器、先验器和解码器。首先,通过对大量文本图像对进行预训练的神经网络,将文本输入转换为CLIP文本嵌入。通过主成分分析(PCA)对该嵌入进行降维处理,以简化后续阶段。在前一阶段,使用配备注意力机制的转换器模型将该嵌入转化为图像嵌入。最后一个阶段是解码器,利用扩散模型将图像嵌入转化为详细的视觉输出。这一输出通过两个阶段的连续神经网络逐步完善,最初从64x64分辨率提升到256x256分辨率,最后提升到1024x1024。这种方法在图像生成方面具有极大的灵活性,能够根据文本输入的细微变化进行调整,生成保持核心语义完整性的各种图像,有效处理诸如内绘和上下文修改等任务,而无需对编辑任务进行特定的预训练。
-
训练 YOLOv12 物体检测模型
在本研究中,YOLOv12物体检测模型的训练以及随后与YOLOv11和 YOLOv10的比较涉及到一个详细和结构化的方法,以最大限度地提高性能并确保不同模型配置之间的重现性。训练过程如下:模型经过200次训练,图像大小为640像素,批次大小为8。
选择这种设置是为了在计算需求和从训练图像中学习详细特征的能力之间取得最佳平衡。训练在高性能计算工作站上进行,该工作站配备了主频为3.30 GHz、拥有20个内核的英特尔至强® W-2155 CPU和英伟达TITAN Xp典藏版显卡。这一硬件配置辅以31.1 GiB的系统内存,并在Ubuntu 16.04 LTS 64位操作系统上运行,确保了处理大型数据集和密集型计算任务的强大处理能力。
所有训练过程都是在这个以高效处理深度学习应用而著称的Linux系统上使用Pytorch框架实现的。为了便于模型管理和未来的可重复性,模型的训练进度每10个epochs保存在指定目录中,确保模型性能的任何显著提高都能被捕获并在以后进行评估。在YOLOv12的所有五个配置(n、s、m、l、x)中,后端设置和这些方法选择都是一致的,保并保持统一的超参数设置,以便对所有模型变体及其前身YOLOv11和YOLOv10进行公平比较。
-
性能评估
为了系统地评估YOLOv12模型在五种配置(n、s、m、l、x)下的功效,我们采用了一套全面的性能指标。这些指标包括方框精确度、方框召回率和平均精确度(mAP),交集大于联盟(IoU)阈值为50%。这些评估对于确定模型在合成LLM生成的图像中检测苹果的准确性和效率至关重要。这些指标的计算公式如下:
除了准确度指标外,还通过检查卷积层数、总参数和GFLOPs来评估模型的复杂性和计算需求:
这些结构和运行指标提供了YOLOv12的可扩展性和部署可行性,特别是在需要高吞吐量和实时处理的应用中。然后,使用相同的数据集,将YOLOv12的性能与其前代产品YOLOv11和YOLOv10进行直接比较。这种比较分析有助于突出YOLOv12设计中的改进及其对农业环境中实际应用的影响,特别是对涉及在合成数据创建的复杂视觉环境中检测苹果的任务的影响。
-
实地评估
在研究的最后阶段,我们在华盛顿州一个商业苹果园的真实环境中验证了训练有素的YOLOv12模型的适用性和有效性。评估于2024年9月29日进行,使用Microsoft Azure Kinect摄像头系统地捕捉了40幅高清图像。这种先进的传感器安装在一个机器人平台上,便于精确、可控地获取图像。
Microsoft Azure Kinect DK传感器与我们的数据采集工作密不可分,它配备了一个1200万像素的RGB摄像头和一个100万像素的深度传感器。深度传感器根据飞行时间(ToF)原理工作,配备了一个全局快门,可执行模拟二进制。这项技术不仅能同步像素捕捉,还能显著降低噪点,提高捕捉图像的质量。传感器的调制频率可在200到320 MHz之间调节,从而可以根据不同的环境条件调节分辨率、范围和帧频。它支持两种深度模式:它支持两种深度模式:窄视场模式(NFOV)和宽视场模式(WFOV)。
Azure Kinect安装在Universal Robots公司(美国波士顿)生产的UR5e工业机械臂上,而UR5e又安装在Clearpath Robotics公司(加拿大安大略省)生产的Warthog人地面车上。这种设置不仅在图像捕捉过程中提供了稳定性,还确保了对果园区域的全面覆盖,特别是对商用苹果的覆盖。此次实地评估所获得的数据构成了后续分析的基础,以确定YOLOv12模型在农业环境中的实际适用性。
五、Coovally AI模型训练与应用平台
如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测
平台链接:https://www.coovally.com
如果你想要另外的模型算法和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
六、结果与讨论
-
性能指标评估
在物体检测模式的比较分析中,YOLOv12配置在从合成LLM生成的图像中检测苹果方面表现出色,精度、召回率和平均平均精度(mAP)在50%交集大于联合(IoU)阈值下成为关键的性能指标。在YOLOv12变体中,YOLOv12n配置是最准确的,其方框精度最高,为0.916,方框召回率最高,为0.969,mAP@50最高,为0.978。YOLOv12s、YOLOv12m和YOLOv12l模型的性能非常接近,每个模型的精确度都达到了0.898,召回率为0.956,mAP@50为0.974,突出了这些配置的一致性。
再看该系列的早期型号,YOLO11和YOLOv10系列在类似条件下也表现出了良好的性能。在YOLO11系列中,YOLO11x配置的精确度最高,为0.857,mAP@50最高,为0.91,而YOLO11m配置的召回率最高,为0.821。在YOLOv10配置中,YOLOv10n和YOLOv10b都达到了0.85的最高预精度,YOLOv10n还记录了0.89的最高mAP@50。YOLOv10x的召回率最高,为0.81。这些结果清楚地表明,随着时间的推移,YOLO模型的发展在不断进步和完善,新的迭代显示出更高的准确性和效率。要详细了解每个模型的指标以及YOLOv12、YOLO11和 YOLOv10之间的综合比较,请参阅表1,其中包含了这些配置的完整性能数据。这项分析明确强调了YOLOv12n在精确度、召回率和mAP方面的优势,巩固了其作为本研究框架内合成图像检测最佳模型的地位。
图3全面展示了YOLOv12n模型的卓越性能,它是YOLOv12、YOLOv11和 YOLOv10系列15个评估配置中的佼佼者。图3a和3b分别显示了精确度-召回曲线和F1-置信度曲线,展示了YOLOv12n在检测合成目标时的稳健性和精确度。图3c进一步体现了这一性能,显示了由DALL-E LLM生成的图像,其中 YOLOv12n高精度地成功识别了苹果。这些出色的结果凸显了模型在处理和识别复杂图像数据方面的有效性,证明YOLOv12n是本次比较研究中处理合成农业图像能力最强的模型配置。
图4显示了YOLOv12物体检测算法配置中每个模型的卷积层、参数和GFLOPs。
-
评估YOLOv12中使用的参数、GFLOP和层数
在对用于合成苹果检测的YOLOv12配置进行比较分析时,YOLOv12n模型使用的卷积层最少(159层),计算需求最低,仅为6.3 GFLOPs。相反,YOLOv12l模型使用了283层和88.5 GFLOPs,对计算资源的需求最高。同时,YOLOv12n配置使用的参数也最少,仅为255.6万个,这表明其架构比同类产品更精简、更高效。
这些特性表明,YOLOv12n配置具有最少的层数和较低的GFLOPs,可为实际应用(如使用机器视觉进行现场苹果检测)提供更实用、更快速的部署选择。计算负荷的减少不仅加快了推理时间,还使其更适合集成到移动或嵌入式系统中,因为这些系统的功率和处理能力有限。这种效率可为农业机器人和精准农业技术带来更广泛的应用和更可扩展的解决方案。
-
图像处理速度评估
在图像处理速度的评估中,YOLOv12表现出不同的性能水平。YOLOv12的推理时间仅为5.6毫秒,在YOLOv12、YOLOv11和YOLOv10系列的所有测试配置中速度最快,显示出卓越的效率。与速度最快的YOLOv11模型(YOLO11n,4.7ms)和速度最快的YOLOv10模型(YOLOv10n,5.9ms)相比,这种效率非常显著。随着YOLOv12系列模型复杂度的增加,推理时间也在增加,YOLOv12l达到了32.5ms。这一分析凸显了YOLOv12n在速度方面的优势,强调了其在商业果园中实时检测苹果的潜力,从而为快速田间图像处理提供了可扩展的解决方案。
-
利用真实图像进行实地验证
YOLOv12模型只在LLM生成的图像上进行训练,其稳健性通过实地验证得到了证实。在商业苹果园进行实时检测时,该模型在识别由安装在机器人地面平台上的Microsoft Azure Kinect摄像头拍摄的图像中的苹果时表现出了极高的准确性,如图5所示。在收获季节进行的这一验证阶段证实了该模型从合成场景到真实世界场景的有效生成能力。值得注意的是,YOLOv12模型在田间条件下检测真实苹果的性能优于其前身YOLOv11和YOLOv10。这一进步凸显了农业应用中模型训练模式的重大转变;训练时不需要实际的田间图像,这表明完全合成的数据可用于开发高效的检测系统。这种方法不仅减少了大量数据收集通常所需的时间和资源,还提高了在多变的农业环境中部署人工智能解决方案的可扩展性。
-
关于近期苹果检测研究的讨论
苹果检测领域的最新进展展示了各种方法创新和研究成果。Liu等人(2024 年)推出了一种轻量级模型Faster-YOLO-AP,利用新的高效PDWConv,在边缘设备上实现了显著的速度和准确性。Johanson等人(2024 年)开发了一种半监督方法S3AD,利用一个混合了标记和未标记图像的大型数据集改进了对小苹果的检测。Ma等人(2024 年)采用了一种轻量级YOLOv8变体,集成了ShuffleNetv2和Ghost模块,用于实时监测,显示出高效率和高精度。Kong Kong等人(2024年)使用基于变压器的Faster RCNN模型增强了苹果检测能力,在复杂的果园环境中表现出色。Jin Jin等人(2025)优化了用于机器人苹果收获的YOLOv8n,实现了令人印象深刻的定位和计数精度。最后,Maheswari Maheswari等人(2025年)分析了改进后的DeepLabv3+架构,实现了高精度和高效的水果定位。虽然这些研究在果园自动化方面取得了长足进步,但它们往往因基于传感器的图像采集、劳动密集型流程和人工标注而成本高昂。
相比之下,我们的研究利用LLM生成的图像来训练YOLOv12模型,避免了传统的大量现场数据收集和人工标注。我们的YOLOv12n模型的mAP@50为 0.978,优于之前讨论的所有方法。YOLOv12s、YOLOv12m和YOLOv12l配置也表现出很高的性能,精确度和召回值分别持续高于0.898和0.956。这些结果不仅证明了使用合成数据进行训练的有效性,还凸显了我们的模型在速度和准确性方面的领先优势。在苹果检测领域,近期发表的任何其他文章都无法与我们的研究在精度和处理速度上相媲美,这标志着合成数据集和 LLM 功能在农业人工智能技术应用领域的一个重要里程碑。
七、结论
本研究证明了YOLOv12模型在物体检测方面的卓越性能,尤其是在农业领域的果园苹果检测方面。YOLOv12n配置表现出色,达到了最高的指标,预精度为0.916,召回率为0.969,mAP@50为0.978。这些结果不仅展示了YOLO系列最新版本的能力,还凸显了它与之前版本相比的改进。相比之下,YOLOv11系列中表现最好的是YOLO11x,其精确度、召回率和mAP@50分别为0.857、0.85和0.91,而YOLOv10系列中表现最好的是YOLOv10n,其精确度、召回率和mAP@50分别为0.84、0.8和0.89。
YOLOv12性能的意义不仅在于数值上的优势,它还说明了该模型能够有效地利用通过LLM生成的合成数据,在现实世界中进行稳健的应用。这一进步表明,深度学习模型的训练方式发生了关键性转变,特别是在精准农业领域,通过自动化系统准确检测和分析作物的能力可以显著提高作业效率,减少对大量人工数据收集的需求。此外,YOLOv12模型在田间级验证中的成功(根据商业苹果园的真实图像进行测试)证实了其实用性和鲁棒性。这一验证不仅证明了该模型在真实世界条件下的有效性,还证明了它作为农业监测和自动化的可扩展解决方案的潜力,为该领域更先进的人工智能驱动应用铺平了道路。因此,YOLOv12树立了该领域的新标杆,有望大幅改进农业技术和管理系统。
八、未来
人工智能的快速发展有望显著提高物体检测模型的准确性、速度和效率,尤其是在YOLO系列中。在我们的研究中,YOLOv12的开发展示了这一进步,它实现了前所未有的性能指标,推理时间比前代产品更短。预计YOLO的未来迭代将进一步完善这些属性,可能会提供更低的推理时间和更高的检测精度。集成由 LLM(如OpenAI的DALL-E)生成的合成数据集代表了我们在训练物体检测模型方面的一次突破性转变。这种方法无需进行大量的实地数据收集,从而降低了人工数据收集和注释的成本和后勤负担。对于YOLOv12来说,在LLM生成的图像上进行训练不仅可行,而且非常有效,为果园环境中苹果等物体的检测精度和速度设定了新的基准。展望未来,通过LLM生成更逼真的图像与不断完善YOLOv12等模型相结合,将使精准农业焕然一新。这种进步可以在不同地区和条件下部署高精度模型,而无需传统的大量本地化数据收集。这对于那些难以获得一致、高质量实地数据的地区的应用来说,尤其具有变革意义。此外,利用 LLMs 提供训练数据的概念也有可能扩展到数据收集风险高、成本高或不切实际的其他领域。这种方法可以使YOLOv12及其后续产品得到更广泛的应用,提高它们在从环境监测到城市发展等不同领域的实用性,同时还能确保这些强大的人工智能工具在各种情况下都能保持适应性和稳健性。