论文阅读:基于语义分割的非结构化田间道路场景识别
论文地址:DOI: 10.11975/j.issn.1002-6819.2021.22.017
概要
环境信息感知是智能农业装备系统自主导航作业的关键技术之一。农业田间道路复杂多变,快速准确地识别可通行区域,辨析障碍物类别,可为农业装备系统高效安全地进行路径规划和决策控制提供依据。
本文提出了一种基于深度学习的田间非结构化道路场景语义分割模型,旨在通过图像识别技术对农业田间道路进行高效、准确的语义分割。通过对不同环境条件下采集的田间道路图像进行处理,模型能够识别动态和静态物体,支持自动化农业导航系统的路径规划和动态避障。本文模型结合了轻量级卷积神经网络(MobileNetV2)、混合扩张卷积、通道注意力机制和金字塔池化模块,优化了分割精度和运行效率,适用于农业导航系统中复杂的田间道路场景。
Motivation
随着农业自动化技术的发展,田间道路识别成为农业自动导航系统中的一项关键技术。
- 传统的田间道路图像识别受限于复杂的环境条件,如不同光照、天气、路面类型等,导致识别效果不稳定。
- 非结构化的农业道路(如园区道路、乡村道路)由于形态不规则、存在多种障碍物,给传统算法带来较大挑战。
因此,提出一种高效、鲁棒的田间道路场景语义分割模型,能够准确识别各种动态和静态对象,为农业自动化导航提供精准的场景理解和决策支持。
系统框架
本文的语义分割模型由编码器和解码器两部分组成,采用轻量级卷积神经网络(MobileNetV2)进行特征提取,辅以混合扩张卷积、通道注意力模块和金字塔池化模块以增强模型的分割能力和准确度。具体框架如下:
- 编码器:使用MobileNetV2作为轻量级特征提取网络,通过卷积和池化操作提取图像的低级特征。
- 混合扩张卷积:引入混合扩张卷积来扩大感受野,避免信息丢失,确保细节恢复。
- 通道注意力机制:结合低级和高级特征信息,利用通道注意力机制提升特征融合效果,提高预测准确性。
- 金字塔池化模块:通过多个尺度的池化操作聚合不同区域的信息,增强全局场景上下文信息,提升分割性能。
- 解码器:上采样输出的特征图,并进行像素级分类得到最终的语义分割结果。
技术细节
本文田间道路场景语义分割模型属于全监督学习类型,需要使用人工精细标注的语义图像作为训练样本。采集的图像本身没有标签和语义,利用 Lableme 工具对图像中需要训练的类别进行语义标注,标注后的文件以.jason 格式存储,然后通过批量转换文件将标注文件转换为.png 格式的标签图像。
-
轻量特征提取网络:使用MobileNetV2网络进行图像特征提取,改进了传统的深度卷积神经网络,使得模型在保证准确率的同时,具备较低的计算复杂度和较快的推理速度。MobileNetV2去除了全局池化和分类层,仅使用卷积层提取图像特征。
-
混合扩张卷积:采用混合扩张卷积(Hybrid Dilated Convolution)代替传统的扩张卷积,通过设置不同扩张率(1, 2, 3)来避免信息丢失和感受野出现空间间隙。
-
通道注意力模块:利用通道注意力机制,结合低级和高级特征进行融合,通过权重调整提升重要特征的权重,减少无关特征对结果的干扰,增强类内一致性。
-
金字塔池化模块:采用金字塔池化模块,结合不同尺度的信息来增强全局上下文信息,提升模型在复杂场景中的分割精度。
-
损失函数:结合交叉熵损失和Dice系数损失,使得模型在进行像素级分类时,既能够优化每个像素类别的准确性,又能够提高整体分割质量,特别是针对类别不平衡问题。
小结
根据表 1 的数据,可以得出以下几点分析:
-
静态物体识别(道路、天空、建筑、植被、土壤、水域): 这些对象具有明显的纹理、颜色和形状特征,因此它们的识别准确率较高。由于静态物体在不同环境中的外观变化较小,且在图像中通常具有较为稳定的特征,这使得深度学习模型能够有效提取并识别这些物体。
-
动态物体识别(车辆、行人): 车辆和行人属于动态障碍物,其识别准确率相对较低。动态物体的出现和运动会受到诸如距离、运动方向、速度等因素的影响,这些因素使得它们的外观变化更加不稳定,从而导致模型在分割时出现一定的困难。因此,车辆和行人通常需要更多的上下文信息和动态建模才能提高识别准确度。
-
地面覆盖物识别: 地面覆盖物(如泥土、草地等)的外观在不同季节和环境下变化较大,特征信息复杂多样。随着环境条件的变化,地面覆盖物的纹理、颜色、形状等特征会发生显著变化,给模型带来挑战。因此,这类物体的识别准确率通常较低。
-
小目标识别(线杆): 线杆等小目标在图像中的面积较小,经过多次下采样操作后,特征图的分辨率会显著降低,导致部分像素的空间位置信息丢失。这些小目标在恢复时容易出现不完全的分割或目标丢失的情况。即使通过上采样方法恢复特征图,模型仍难以恢复其准确的位置,因而导致识别准确率较低。
各类对象的识别准确率受到不同因素的影响,静态物体相对容易识别,而动态物体、地面覆盖物及小目标的准确度较低。针对这些问题,未来的研究可以在模型中加入更多的上下文信息、动态建模以及针对小目标的特征增强方法,进一步提升这些对象的识别精度。
根据表 2 的数据分析,可以得出以下结论:
-
HDC 模块的影响:
- 采用 HDC(高效深度卷积)模块替代普通扩张卷积,显著提升了模型的 PA(像素准确率)和 MAP(均值平均精度),分别达到 89.82% 和 85.68%。
- 这一提升表明,HDC 模块通过增大感受野并保留更多的像素空间位置信息,能够有效提高模型在像素预测方面的性能,尤其在处理具有复杂背景的图像时尤为有效。
- 尽管 HDC 模块增加了计算复杂度,但其对模型的整体影响相对较小,参数量增加了 5.35%,检测速度降低了 10.70%。
-
CAB 模块的影响:
- 引入通道注意力模块(CAB)后,模型的 PA 和 MAP 分别提升至 92.46% 和 88.72%。
- CAB 模块利用高级阶段的强语义信息来引导低级阶段提取更具判别性的特征,从而增强了类内预测的一致性,并提升了分割效果。
- 然而,CAB 模块带来了较大的参数量增加,模型的参数量增加了 39.28%,检测速度下降了 22.25%。
-
PPM 模块的影响:
- 添加金字塔池化模块(PPM)使模型的 PA 和 MAP 达到最高值,分别为 94.85% 和 90.38%。
- PPM 模块通过聚合不同区域的信息,增强了模型获取全局上下文的能力,提升了像素级别的预测精度。
- 然而,PPM 模块对模型的计算开销影响较大,模型参数量增加了 54.48%,检测速度降低了 31.41%。
-
总结与对比:
- HDC 模块对模型的性能提升贡献最大,但对计算效率的影响最小,是最优的平衡点。
- CAB 模块虽然显著提高了分割效果,但增加的计算成本较高,影响了检测速度。
- PPM 模块对分割效果的提升作用最大,但其引入的计算开销也最大,导致检测速度下降明显。
因此,综合考虑模型性能和计算效率,HDC 模块的加入是最有效的,而 CAB 和 PPM 模块则在提升性能的同时,增加了较大的计算负担。在实际应用中,需根据具体需求权衡性能和效率。
本文提出了一种基于深度学习的田间非结构化道路语义分割模型,并在不同环境条件下进行数据采集和处理,证明该模型能够在农业导航系统中有效识别和分割复杂的道路场景。通过融合轻量级卷积神经网络、混合扩张卷积、通道注意力机制和金字塔池化模块,本文模型在保证较低计算复杂度的同时,显著提升了分割精度。实验结果表明,该模型能够实现高效的动态物体识别与路径规划,为农业自动导航系统提供可靠的道路场景解析支持。