51c自动驾驶~合集41
我自己的原文哦~ https://blog.51cto.com/whaosoft/12830614
#SFPNet
迈向通用Lidar分割!取代Transformer的新架构SFPNet
迈向通用激光雷达语义分割(),取代Transformer的新架构SFPNet,新数据集S.MID
论文标题:SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds
论文地址:https://arxiv.org/abs/2407.11569
数据集网站:https://www.semanticindustry.top
代码地址:https://github.com/Cavendish518/SFPNet
背景
激光雷达因其在包括低光照条件在内的多种环境下的精确距离检测能力而成为自动驾驶汽车和机器人的热门选择。激光雷达点云能够精准表征真实场景,通过语义分割实现对三维场景的直接理解,相比基于二维图像的分割,这些优势能够更有效地支持后续的定位、规划等任务。
摘要
现有激光雷达语义分割的SOTA方法通常包含专门为机械旋转激光雷达设计的归纳偏置。这限制了模型在其他类型激光雷达技术中的通用性,并使超参数调整变得更加复杂。为了解决这些问题,上海交通大学团队提出了一种通用的框架SFPNet,用稀疏焦点机制代替窗口注意力机制,以适应市场上流行的各种类型的激光雷达。SFPNet能够提取多层上下文信息,并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。SFPNet在nuScenes 和SemanticKITTI等机械旋转激光雷达数据集中展示了具有竞争力的性能,在固态激光雷达数据集PandaSet和混合固态激光雷达数据集S.MID上表现优于现有方法。
动机
图1不同类型的激光雷达点云分布和FOV对比。
对于激光雷达分割任务的backbone网络,它需要解决的三个主要挑战是稀疏性、大规模性和点云密度的非均匀变化。先前的研究将归纳偏置(特殊分区或特殊窗口和位置编码)引入到单一类型的激光雷达(通常是机械旋转激光雷达)来解决上述三个挑战(图2)。这会限制模型对其他类型激光雷达的通用性,并使超参数调整更加复杂。在这种背景下作者提出了稀疏焦点机制来替换窗口注意机制。
图2窗口注意力机制(左上,左下),圆柱分区(右上)和稀疏焦点机制(右下)的直观对比。
方法
稀疏焦点模块可以替换窗口注意力机制,直接插入现有的网络中。稀疏焦点模块具有如下形式:
稀疏焦点模块具有两条性质1)包含上下文信息的显式局部性 2)平移不变性。
图3 稀疏焦点模块。
方法具体实现如下,给定一个激光雷达特征序列X。
先进行多级上下文提取:
然后进行自适应特征聚合:
最后实现通道信息查询:
数据集
作者使用装备了Livox Mid-360的工业机器人在电站场景采集并标注了38904 帧数据。数据集场景如下:
图4 S.MID数据集中的累计点云图。
和传统benchmark,nuScenes 和SemanticKITTI的对比:
表1 数据集对比。
实验结果
作者在不同类型的激光雷达数据集nuScenes ,SemanticKITTI, PandaSet和S.MID上进行了实验,SFPNet均取得了非常好的分割效果,表现出了很好的通用性和鲁棒性。
表2 和现有backbone类型的网络在不同类型激光雷达数据集上的效果对比。
表3 nuScenes验证集。
特别地,针对混合固态激光雷达点云分布的随机性,SFPNet有较好的结果,而前人的方法和标准稀疏卷积网络相比效果没有明显提升,即前人设计的模块失效。印证了方法的通用性。
表4 S.MID验证集。
作者还给出了可解释性的可视化验证。消融实验验证了各个模块的必要性。
图5 可解释性分析。某一个点(红星)和周围特征()的相关性。
表5 消融实验。
总结
作者提出了一种新的通用的激光语义分割网络SFPNet。该方法可以替换现有主流网络中的窗口注意机制。SFPNet在各种类型激光雷达的数据集上表现出出色的性能,并具有良好的可解释性。作者还构建了一个全新的基于混合固态激光雷达的数据集S.MID。
#Sparse4D-V1论文详解
1.研究介绍
看到算法带有版本号就让人yolo,从第1代干到现在的11代了,以前还能说清楚yolo1到yolo3的改进和差异,当发展到11代就很难想起他们的差异了。Sparse4D目前已经发展到第三代了。
- paper: arXiv reCAPTCHA
- github:https://github.com/linxuewu/Sparse4D
与基于BEV的方法相比,基于稀疏方法的性能较为落后,但仍然具有许多不可忽视的优点。为了进一步推动稀疏3D检测的发展,本文通过稀疏采样和融合时空特征进行锚框的迭代优化。
(1)稀疏4D采样
对于每个3D anchor,分配多个4D关键点,这些关键点然后被投影到多视角/尺度/时间戳的图像特征中,以采样相应的特征;
(2)层次化特征融合
对不同视角/尺度、不同时间戳和不同关键点的采样特征进行层次化融合,以生成高质量的实例特征。
Sparse4D无需依赖于密集视角转换或全局注意力,并且更适合于边缘设备的部署。此外,还引入了一个实例级深度重加权模块,以缓解3D到2D投影中的病态问题。
1. 引言
摄像头由于缺乏明确的深度信息,从2D图像进行3D感知是一个病态问题,如何融合多摄像头图像以解决3D感知任务,是视觉BEV要解决的问题。
目前BEV主要分两类:
(1)基于BEV的方法(dense)
以LSS、为代表
通过将多视角图像特征转换到统一的BEV空间中来进行3D检测。但仍然存在一些不可避免的缺点
- 图像到BEV的透视变换需要密集的特征采样或重排,这对于低成本边缘设备的部署来说既复杂又计算量大;
- 最大感知范围受限于BEV特征图的大小,难以在感知范围、效率和精度之间进行平衡;
- BEV特征在高度维度上被压缩,丧失了纹理信息。因此,BEV特征在一些感知任务(如标志检测)中表现不佳。
(2)基于稀疏的方法
detr3d,petr为代表
与BEV的方法不同,基于稀疏算法不需要密集的透视变换模块,而是直接对3D锚点(anchor)进行稀疏特征采样,从而能够缓解上述问题。
其中,最具代表性的稀疏3D检测方法是DETR。
(1)然而,DETR3D的模型容量有限,因为它仅对每个锚点查询采样一个单一的3D参考点特征。
(2)SRCN3D利用RoI-Align对多视角特征进行采样,但效率不够高,且无法精确对齐来自不同视角的特征点。
同时,现有的稀疏3D检测方法并未充分利用丰富的时间上下文信息,因此与最先进的BEV方法相比,性能存在显著差距。
sparse4D针对以上问题,改进如下:
(1)sparse4D利用分布在3D锚点框区域内的多个关键点进行特征采样。与单点方法和RoI-Align方法相比,
1)能够高效地提取每个锚点框内部丰富且完整的上下文;
2)能够简单地扩展到时间维度,作为4D关键点,从而有效对齐时间信息。
(2)为缓解基于摄像头的3D检测中的病态(ill-posed)问题并提高感知性能,显式地加入了一个实例级深度重加权模块,其中实例特征通过从预测的深度分布中采样的深度置信度进行重加权。
2.相关工作
早期的目标检测方法使用密集预测作为输出,然后通过非极大值抑制 (NMS) 来处理这些密集预测。DETR 引入了一种新的检测范式,利用基于集合的损失和 Transformer 来直接预测稀疏的检测结果。DETR 在目标查询(object-query)和全局图像上下文之间执行交叉注意力,这导致了较高的计算成本和收敛困难。由于使用了全局交叉注意力,DETR 不能被视为一种纯粹的稀疏方法。Deformable DETR对 DETR 进行了改进,提出了一种基于参考点的局部交叉注意力,这加速了模型收敛并降低了计算复杂度。Sparse R-CNN提出了另一种基于区域提议思想的稀疏检测框架,其网络结构极其简单有效,展示了稀疏检测的可行性和优越性。作为 2D 检测的扩展,许多 3D 检测方法最近也开始更多关注这些稀疏范式,例如 MoNoDETR 、DETR3D 、Sparse R-CNN3D 、SimMOD。
单目3D检测算法以单张图像作为输入,输出目标的3D边界框。由于图像不包含深度信息,这个问题是病态(ill-posed),相较于2D检测更加具有挑战性。FCOS3D 和 SMOKE 基于单阶段的2D检测网络进行扩展,使用全卷积网络直接回归每个目标的深度。也有算法则将2D图像通过单目深度估计结果转换为3D伪点云信号,然后使用基于LiDAR的检测网络完成3D检测。OFT 和 CaDDN 借助视图变换模块将密集的2D图像特征转换为BEV(鸟瞰图)空间,然后将BEV特征输入检测器以完成3D目标检测。不同的是,OFT 使用3D到2D的逆投影关系完成特征空间变换,而CaDDN基于2D到3D投影,更类似于伪LiDAR的方法。
密集算法是多视角3D检测的主要研究方向,这类算法使用密集特征向量进行视图变换、特征融合或边界框预测。目前,基于BEV的方法是密集算法的主要组成部分。BEVFormer 采用可变形注意力来完成BEV特征生成和密集的时空特征融合。BEVDet使用提升-投影操作(lift-splat operation)实现视图变换。在BEVDet的基础上,BEVDepth 添加了显式的深度监督,显著提高了检测的精度。BEVStereo 和 SOLOFusion 将时间立体技术引入3D检测,进一步改善了深度估计效果。PETR 利用3D位置编码和全局交叉注意力进行特征融合,但全局交叉注意力的计算开销较大。DETR3D是稀疏方法的代表性工作之一,其基于稀疏参考点执行特征采样和融合。Graph DETR3D 延续了DETR3D,并引入了图网络以实现更好的空间特征融合,尤其在多视角重叠区域中表现突出。
3.方法介绍
Sparse4是encoder-decoder结构。encoder用于提取具有共享权重的图像特征,包括一个主干网络(如ResNet [10] 和 VoVNet [14])以及一个特征融合网络(如FPN)。给定时间戳 t 的 N 张多视角输入图像,encoder提取多视角、多尺度的特征图。
为了利用时间上下文信息,提取最近 T 帧的图像特征,构建图像特征队列:
随后,decoder以迭代细化的方式预测检测结果,包括一系列细化模块和一个分类头,用于最终分类置信度的预测。每个细化模块以图像特征队列 I、3D锚框 B和对应的实例特征 F作为输入,输出更新的3D框和实例特征。这里,M 表示锚框的数量,C表示特征通道的数量。每个锚框的格式为:
所有3D锚框均设置在统一的3D坐标系中(如中心LiDAR坐标系)。在每个细化模块中,首先采用自注意力机制实现实例间的交互,并在交互前后添加锚框参数的嵌入(embedding)。进行可变形4D聚合,融合多视角、多尺度、多时间戳以及多关键点的特征。此外引入深度重权模块,以缓解基于图像的3D检测中的病态问题。最后,通过回归头预测当前锚框与真实值之间的偏移量,从而细化当前锚框。整体结构,如下图所示:
3.1 可变形4D聚合
实例特征的质量对整个稀疏感知系统具有关键影响。为了解决这个问题,引入了可变形4D聚合模块,通过稀疏特征采样和层次特征融合来获得高质量的实例特征。
3.2 4D关键点生成
对于第 m个锚点实例,分配 K个4D关键点,表示为 P,这些关键点由 KF个固定关键点和KL 个可学习关键点组成。在当前时间戳 t0 下,先将固定关键点 Pm放置在锚框的立体中心以及六个面的中心位置。与固定关键点不同,可学习关键点会随不同的实例特征而变化,使得神经网络能够找到每个实例最具代表性的特征。
通过将实例特征与锚框嵌入相加,可学习关键点 Pm计算公式如下:
表示偏航角的旋转矩阵
3.3时间特征处理
时间特征对3D检测至关重要,并能提升深度估计的准确性。获得当前帧的3D关键点后,将其扩展为4D,以便进行时间融合。对于一个过去的时间戳 t,首先构建一个匀速模型,将每个3D关键点平移到当前帧的3D坐标系中:
3.4稀疏采样
3.5层次融合
为了生成高质量的实例特征,以分层方式融合上述特征向量。对于每个关键点,首先用预测的权重对不同视角和尺度的特征进行聚合,然后通过序列线性层进行时间融合。最后,对于每个锚点实例,融合多个关键点特征生成实例特征。
具体来说,给定锚点实例特征(已加上锚框嵌入),我们首先通过线性层 Ψ 预测分组加权系数:
其中 G是按通道划分的分组数。通过该系数,可以对不同组的通道使用不同权重进行加权聚合,类似于分组注意力机制。
3.6深度重加权模块
这种 3D 到 2D 的转换存在一定的模糊性,同的 2D 坐标。对于不同的 3D 锚点,可能会采样到相同的特征(见图4),这增加了神经网络拟合的难度。为了解决这一问题,我们引入了显式深度估计模块 该模块由多个带残差连接的多层感知机(MLP)组成。对于每个聚合特征Fm,我们估计一个离散的深度分布,并利用 3D 锚框中心点的深度来采样对应的置信度Cm,该置信度将用于对实例特征进行重加权。
通过这种方式,对于那些 3D 中心点在深度方向上远离真实值的实例,即使它们的 2D 图像坐标与真实值非常接近,相应的深度置信度也会趋于零。因而,对应的实例特征 Fm在重加权后也会被惩罚,趋于零。此外,深度估计模块可以作为一个独立部分设计和优化,从而提升模型性能
综合看来,sparse4D,还是难理解的。
4.细节
5.code
使用比较多的tricks,持续更新中
#国内首个面向科研&落地的3DGS全栈实战教程
神经辐射场(Neural Radiance Fields)自2020年被提出以来,相关论文数量呈指数增长,不但成为了三维重建的重要分支方向,也逐渐作为自动驾驶闭环仿真的重要工具。三年多的时间里,新的算法和改进层出不穷,其视觉质量逐步提高突破。并且在该技术的支持下,许多领域都取得了突破性的成果。但NeRF per-pixel ray marching的原理避免不了重建效率较低、过度平滑且容易发生灾难性遗忘。因此研究人员开始思考,有没有更好更快的三维场景表达形式,以实现高质量重建。
至此3DGS应运而生。原始的3DGS算法聚焦于静态场景重建,研究人员进一步引入时序位姿构造4DGS,而压缩3D表示到2D则为2DGS。三维重建领域旋即又是一轮新的变革风暴,目前已经应用到数字人体、表面重建、自动驾驶场景重建等等子领域,甚至在自动驾驶Occupancy感知、预训练等方面也也有很多优秀的工作。
3DGS为什么受欢迎?
相比于隐式神经网络的黑盒表示,3D Gaussian的表征方式更符合直觉,更通俗易懂。3DGS之所以爆火,很大程度在于他的实时性。除此之外,Gaussian Splatting根本不涉及任何神经网络,甚至没有一个小型的 MLP,也没有什么 "神经"的东西,场景本质上只是空间中的一组点。而更重要的一点,相比自动驾驶感知任务、大模型之类的领域,3DGS所需的算力非常小,基本上单卡就能运行,训练往往只需要分钟级。在大家都在研究数十亿个参数组成的模型的人工智能世界里,这种方法越来越受欢迎,令人耳目一新。
目前为止,3D Gaussian Splatting已经衍生出很多子领域,原始3DGS关注静态场景的重建;引入时序位姿进化为4DGS,重建动态场景;压缩三维表示到2DGS,重建表面场景;动静态结合可以重建自动驾驶场景。
重建效果如何?
静态场景重建:10
表面场景重建:
动态场景重建:
自动驾驶场景重建:
#GaussianFormer-2
Gaussian的含金量还在提升!清华&鉴智强强联合
三维语义占用预测是稳健的视觉主导自动驾驶中的一项重要任务,它预测周围场景的精细几何结构和语义信息。大多数现有方法采用密集的基于网格的场景表示,忽略了驾驶场景的空间稀疏性。尽管三维语义高斯分布作为一种以对象为中心的稀疏替代方案,但大多数高斯分布仍以低效的方式描述空旷区域。为解决这一问题,我们提出了一种概率高斯叠加模型,该模型将每个高斯分布解释为其邻域被占用的概率分布,并遵循概率乘法原则来推导整体几何结构。此外,我们采用精确的高斯混合模型进行语义计算,以避免高斯分布的不必要重叠。为了有效地在非空旷区域初始化高斯分布,我们设计了一个基于分布的初始化模块,该模块学习像素对齐的占用分布,而不是表面的深度。在nuScenes和KITTI360数据集上进行了大量实验,GaussianFormer-2模型以高效率实现了最先进的性能。
代码地址:https://github.com/huang-yh/GaussianFormer
一些基础介绍
在自动驾驶领域,与基于激光雷达(LiDAR)的同类产品相比,以视觉为中心的系统更具成本效益。然而,它们无法捕捉任意形状的障碍物,这对驾驶的安全性和可靠性构成了挑战。三维语义占用预测方法的出现通过预测周围三维环境的精细几何结构和语义信息,缓解了这一局限性。这一进展支持了一系列新兴应用,包括端到端自动驾驶、四维占用预测以及自监督三维场景理解。
尽管三维语义占用预测有着广阔的应用前景,但其本质上是一项密集的三维分割任务,因此需要一种既高效又有效的三维场景表示方法。基于体素的方法使用密集的三维体素作为表示,以最精细的细节描述场景。然而,它们忽略了三维占用中的空间冗余,并面临高计算复杂度的挑战。为了规避这一问题,平面表示方法,如鸟瞰图(BEV)和透视投影体素(TPV),通过沿某一轴压缩三维网格来生成二维特征图,从而减少标记数量。尽管如此,它们在建模环境时仍然考虑了空旷区域,这损害了其模型容量和效率。作为以对象为中心的稀疏场景表示的先驱,三维语义高斯分布通过为每个高斯分布学习均值、协方差、不透明度和语义,以稀疏的方式描述三维空间。然而,当前的三维语义高斯表示仍存在一些局限性:1)每个高斯分布仍然可以描述空旷区域,考虑到三维占用的空间稀疏性,在以对象为中心的公式中,大多数高斯分布都是无用的。2)聚合过程忽略了重叠问题,直接累加每个高斯分布的贡献以产生占用预测,这导致语义逻辑回归值无界,并进一步增加了高斯分布之间的重叠。因此,独立描述占用区域的有效高斯分布的比例可能极低,这损害了三维语义高斯表示的效率。这里我们引入了一种概率高斯叠加模型,以解决三维语义高斯分布的上述局限性,并提高利用率和效率。具体来说,我们提出了概率高斯表示,通过将每个高斯分布解释为其邻域被占用的概率分布,使三维高斯分布专门用于建模非空旷区域。采用概率乘法定理来聚合独立概率分布,并推导出几何预测。此外,我们将高斯混合模型整合到我们的概率高斯表示中,以生成归一化的语义预测,从而避免逻辑回归值无界,并防止高斯分布发生不必要的重叠。由于我们的表示仅建模占用区域,这里还设计了一个基于分布的初始化模块,以有效地在非空旷区域周围初始化高斯分布,该模块学习像素对齐的占用分布,而不是表面的深度值。我们分别在nuScenes和KITTI-360数据集上进行了广泛的实验,用于环视和单目三维语义占用预测。GaussianFormer-2模型以高效率超越了最先进的方法。此外,定性可视化结果表明,GaussianFormer-2能够生成整体且逼真的场景感知。
相关工作回顾
3D语义占用预测
3D语义占用预测已成为自动驾驶中一种颇具前景的环境建模方法,因为它能够全面描述驾驶场景。这项任务旨在通过一种或多种类型的传感器作为输入,为场景中的每个体素打上标签。最常用的两种传感器是激光雷达(LiDAR)和摄像头。尽管基于LiDAR的方法在三维感知任务中表现卓越,但在恶劣天气条件下和远距离物体检测方面存在局限;因此,基于摄像头的方法越来越受到关注。在3D语义占用预测任务的开创性工作中,采用基于密集网格的表示作为推导占用的直接手段,随后的工作转向以对象为中心的稀疏表示,以解决密集表示固有的冗余问题。
基于网格的场景表示
在自动驾驶的场景感知任务中,平面表示已成为一种具有竞争力的表示方法。BEVFormer是这类工作的先驱,它仅使用摄像头输入,并在检测和分割任务中与基于LiDAR的方法表现相当。它将图像特征转换为鸟瞰图(BEV)特征,作为统一的场景表示,因为从这个视角获得的信息最为丰富。然后,将BEV特征用于下游任务。然而,BEV特征不适合用于3D占用构建,因为它会导致高度信息丢失。作为BEV空间的推广,TPVFormer提出了三视角表示,以包含高度信息,从而使其更适合于3D场景。另一个研究方向采用基于体素的表示作为更具体于3D且更精细的方法,使其有利于3D体积语义预测。然而,这些方法使用基于密集网格的表示,无论环境的空间稀疏性如何,都平等地描述每个体素,从而导致固有的冗余。
以目标为中心的场景表示
为了消除密集表示中固有的空间冗余,许多近期工作采用了稀疏表示。一种方法是将密集网格划分为物体所在的部分,并省略预见为空旷的区域。然而,非空旷区域可能会被错误地分类为未占用,并在整个后续过程中被完全消除。另一种方法利用点表示,通过在场景范围内采样点作为后续细化过程中的查询;但是,点表示的描述范围有限,因为它没有空间范围。另一种方法,GaussianFormer,采用了3D语义高斯表示,其中概率围绕均值分布,从而实现了更高的利用率。然而,由于没有规定高斯不能表示空旷,空间冗余仍然存在。
GaussianFormer-2方法
我们提出了一种概率高斯叠加方法,用于高效的三维语义占用预测。首先,我们回顾了原始的三维语义高斯表示法及其局限性。然后介绍了我们的概率高斯建模方法,以及如何基于概率乘法定理和高斯混合模型来推导几何和语义预测。最后详细阐述了基于分布的初始化模块,该模块可有效地在占用区域周围初始化概率高斯。
3D 语义高斯表示
以视觉为中心的3D语义占用预测旨在获取3D场景的精细几何结构和语义信息。具体而言,其目标是根据输入图像,预测体素级别的语义分割结果,其中C、{X, Y, Z}、N分别代表预定义类别的集合、占用的空间分辨率和输入视图的数量。
为了实现这一目标,3D语义高斯表示采用了一组P个高斯基元,其中每个通过其均值、尺度、旋转、不透明度和语义来描述一个局部区域。GaussianFormer将这些基元解释为局部语义高斯分布,这些分布通过加性聚合对整体占用预测做出贡献:
其中,表示第i个语义高斯对的贡献,是在位置x处的整体占用预测。贡献g进一步计算为在位置x处评估的相应语义高斯分布的值:
其中,Σ表示协方差矩阵,R表示由四元数r通过函数q2r(·)构造的旋转矩阵,S表示由函数diag(·)得到的对角尺度矩阵。
尽管与密集体素的数量相比,由于高斯分布如等式(2)所示的可变形特性,高斯数量有所减少,但3D语义高斯表示仍存在一些局限性。首先,它使用语义属性c以相同的方式对占据区域和未占据区域进行建模,由于室外场景中空旷区域占比巨大,导致大多数高斯被归类为空。其次,语义高斯表示鼓励高斯重叠,因为等式(1)中的聚合过程独立地累加每个高斯的贡献,导致无界的占用预测oˆ。为了优化,模型会学习分配更多的高斯来描述同一区域,由于oˆ的无界特性,这加剧了高斯之间的重叠。这些局限性源于当前对高斯的解释,阻碍了3D语义高斯表示的效率和有效性。我们的方法从概率的角度探讨了基于高斯的对象中心表示,为解决这些问题提供了根本性的方案,如图2所示。
概率高斯叠加
我们提出概率高斯叠加作为一种高效且有效的3D场景表示方法。如图3所示,将3D建模目标分解为几何和语义预测,并分别采用概率乘法定理和高斯混合模型从概率的角度来解决这些问题。几何预测。为了限制高斯仅表示几何预测中的占据区域,我们将高斯基元解释为它们周围空间被占据的概率。具体来说,在高斯中心分配100%的概率值,该值随着与中心m的距离呈指数衰减。
其中,α(x; G)表示由高斯G引起的点x被占据的概率。等式(4)在点x接近高斯G的中心时赋予其较高的占据概率,从而防止任何高斯描述空区域。为了进一步推导出整体的占据概率,我们假设不同高斯描述的点被占据的概率是相互独立的,因此可以根据概率乘法定理将它们聚合起来。
其中,α(x) 表示点 x 处的总体占据概率。除了具备以目标为中心的特性外,等式(5)还避免了高斯分布之间的不必要重叠,因为对于任意高斯分布 Gi,都有 α(x) ≥ α(x; Gi) 成立。这意味着,如果点 x 足够接近任意一个高斯分布,则预测该点被占据。
语义预测。除了以目标为中心的无重叠几何建模外,我们还需要在语义预测上实现相同的目标。首先,由于空类已经在几何预测中考虑过了,我们从高斯分布的语义属性c中移除了表示空类的通道。然后,我们将高斯集合G解释为高斯混合模型,其中语义预测可以表述为在给定的概率高斯混合模型下计算期望语义。具体来说,将原始的不透明度属性a作为高斯分布的先验分布,该分布是L1标准化的。此外采用由均值m、尺度s和旋转r参数化的高斯概率分布作为条件概率。然后使用softmax对原始语义属性c进行归一化,以确保预测语义的有界性。最后,我们计算期望e(x; G)。
在给定了几何和语义预测后,我们迈出了简单的一步,将它们结合起来以生成最终的语义占据预测。
Distribution-Based Initialization
之前的3D语义高斯表示采用了一种可学习的初始化策略,该策略在训练开始时随机初始化高斯属性的值,并以数据驱动的方式优化这种初始化。这种策略使模型能够学习到整个数据集占据情况的先验分布,这依赖于后续网络的精细化调整以适应每个单独样本的分布。然而,高斯分布的局部感受野限制了其移动性,这阻碍了每个高斯分布在后续精细化调整中学习到达正确位置的路径。对于我们的概率高斯叠加表示(其中高斯分布仅用于建模占据区域)来说,这个问题甚至更加严重。
为了解决这个问题,我们提出了一个基于分布的初始化模块,该模块为高斯分布提供了更准确且全面的样本特定初始化,如图4所示。我们使用来自占用注释的像素对齐占用分布来监督来自2D主干网络的图像特征。具体来说,首先利用相机校准数据确定与每个图像特征相对应的射线的原点b和方向d。然后,我们在这条射线上固定深度范围内等间隔地采样R个参考点。对于每个参考点,我们查询其在相应位置的地面真实占用情况O,以获得表示参考点是否被占用的二进制标签然后,我们将作为监督信息来优化我们的初始化模块,该模块由一个图像主干网络B和一个分布预测器M组成。分布预测器M直接将图像特征解码为沿相应射线的占用分布,这些分布与l使用二进制交叉熵损失进行匹配:
与以前使用激光雷达监督来预测深度值的初始化方案不同,我们的方法学习的是整体的占据分布,而不仅仅是场景的可见表面,并且不需要任何额外的模态作为监督信息。
总体而言,我们的基于分布的初始化模块用于初始化高斯分布,这些高斯分布随后被送入到如GaussianFormer中所述的B个基于注意力的架构块中。每个块由自编码、图像交叉注意力和细化模块组成,其中概率高斯属性稳步提高,然后,通过我们提出的新方法(鼓励更高程度地利用高斯分布)对所得高斯分布进行聚合。
实验对比分析
#自动驾驶视觉大语言模型探讨会
普渡大学、伊利诺伊大学香槟分校、弗吉尼亚大学、腾讯以及博世北美研究院于2025年2月28日-3月4日在美国亚利桑那州图森的Winter Conference on Applications of Computer Vision (WACV)会议上举办第三届"大型语言与视觉模型在自动驾驶中的应用"研讨会(3rd Workshop on Large Language and Vision Models for Autonomous Driving - "LLVM-AD")。
本次研讨会诚邀学术界和工业界的研究人员投稿,研究主题包括:自动驾驶中的大型语言模型应用、自动驾驶的基础模型、自动驾驶新型语言/视觉数据集、自动驾驶中的长尾问题、知识蒸馏、不确定性量化、多模态融合、状态空间模型等相关领域。
针对此次研讨会,我们发布了MAPLM-QA开源数据集挑战赛,该数据集专注于交通场景的视觉问答任务。参赛者将开发创新方法,利用高分辨率全景图像和2.5D鸟瞰图来回答复杂交通场景的多选题。表现优异的团队将获得证书和奖金。
#毫秒级端到端无人机规划算法
You Only Plan Once
导读:在无人机领域,如何实现障碍物密集环境下⽆⼈机⾼速⾃主⻜⾏⼀直是⼀⼤挑战。本⽂将深⼊解读这项⼯作,并探讨它是如何通过端到端轨迹规划算法实现毫秒级的规划速度与⾼速⻜⾏的能⼒。
论⽂题目:You Only Plan Once: A Learning-Based One-Stage Planner With Guidance Learning
论文作者:Junjie Lu , Xuewei Zhang , Hongming Shen,LiwenXu , and Bailing Tian
论文地址:https://ieeexplore.ieee.org/document/10528860
在无人机领域,实现自主路径规划是一个重要的主题,它涉及到在给定环境下生成一条从起点到终点的无碰撞最优路径。目前的主流算法如Fast-Planner等主要通过获取图像->建图->前端路径搜索->后端轨迹规划这⼀框架实现满足无人机运动学和动力学的最优路径生成。但是,受建图与前端路径搜索耗时的影响,导致规划速度很难有大的提升,进而限制了无人机高速飞行的能力。为减小耗时,实现毫秒级的规划速度,作者提出了⼀种名为You Only Plan Once (YOPO) 的端到端规划算法,通过端到端的方式去除建图与前端路径搜索过程,实现从获取图像直接到轨迹规划,为规划算法节省大量时间,使得高速飞行成为可能。
▲图1 YOPO轨迹规划图
▲图2 系统概述:YOPO算法以深度图像、当前状态和目标方向作为输入,并预测每个原始轨迹的偏移 量、末端导数和得分。
YOPO算法框架如上图所示,主干网络为ResNet-18,网络策略的输入为深度图像(表示环境的深度信息)、当前状态(无人机的当前位置、速度和加速度等)以及目标方向(表示无人机的目标位置或方向);输出为偏移量(表示每个原始轨迹的偏移量,用于调整无人机的运动路径)、末端导数(表示每个原始轨迹的末端导数,用于描述轨迹的末端状态)以及得分(表示每个原始轨迹的得分,用于评估轨迹的可行性)。
YOPO算法将运动规划问题定义为空间分离的多项式轨迹和相关分数的回归。通过采用一组运动基元来覆盖搜索空间,并在前向传播中预测基元的偏移量和分数以进行局部优化。在训练阶段,作者提出了一种称为引导学习的无监督学习策略,被开发来提供数值梯度作为训练的指导。
■3.1基元坐标系
在YOPO算法中,基元坐标系的设计是实现精确运动规划的关键基础。该系统首先对输入的深度图像进行结构化划分,将图像在垂直和水平方向分别均匀划分为和块,从而形成了⼀个网格化的结构,总计包含个区块。这种划分方式确保了对整个空间的系统性覆盖,如下图所示。
▲图3 基元坐标系
每个锚点采用球坐标系表示,其初始位置定义为:
为实现精确的位置控制,系统使用ResNet-18网络预测位置偏移量。考虑偏移量后,锚点的实际位置变为:
其中:
网络输出的偏移量具有维度,包含位置、速度和加速度等信息。这些偏移量通 过如下变换计算:
这种坐标系统设计既保证了对空间的完整覆盖,又通过偏移机制实现了精确的局部调整,为后续的运动规划奠定了基础。
■3.2时间轨迹系数求解
上一节中ResNet-18输出的偏移量信息主要用来实现本节的时间轨迹求解。轨迹采用五次多项式来表示无人机在三维空间中的平滑运动,对于每个空间维度,其位置轨迹可以表示为:
在规划过程中,对于一段轨迹,只需要考虑起始时刻t = 0和终止时刻t=T的边界条件。这些边界条件构成了一个线性方程组,可以表示为矩阵形式,其中是包含起始时刻(当前位置,速度,加速度,已知)和终止时刻(锚点的偏移位置,偏移速度,偏移加速度,偏移量由ResNet-18输出)边界条件的向量,M是系数矩是待求解的多项式系数向量。通过求解方程,可以得到轨迹多项式的系数。在实际应用中,可以被分解为已知量和可调偏移量,即需求灵活调整轨迹参数。
■3.3引导学习
作者采用基于Actor-Critic框架的引导学习方法来训练无人机端到端轨迹规划。与传统需要拟合的 Critic网络不同,这里直接使用已知的代价方程作为引导用的Critic,使学习过程更加稳定和高效。系统的整体代价函数由三个部分组成,表示为:
其中平滑代价确保轨迹连续性,通过系数矩阵计算:
避障代价通过指数函数评估安全距离:
目标代价度量终点精度:
得分估计通过最小化损失函数得到,其中为ResNet-18预测得分。这种引导学习的方法结合确定性代价函数和深度学习网络,提供了一个高效的端到端轨迹规划解决方案。
论文中的实验设计旨在验证YOPO端到端无人机规划算法的毫米级规划速度与高速飞行能力。
■4.1硬件配置
在硬件配置方面,作者使用了RealSense D455深度相机获取16:9宽高比的深度图像,并将其缩放至160×96分辨率。实验平台采用了i7-9700 CPU和RTX 3060 GPU运行Flightmare模拟器,同时在实际平台上使用NVIDIA Xavier NX作为计算单元进行验证。
▲图4 YOPO无人机硬件平台
■4.2性能比较
在性能比较方面,作者将所提出的方法与多个现有方法进行了对比,包括TopoTraj、MPPI Planner和Agile Autonomy等。通过在不同障碍物密度(1/30和1/20 tree/m²)和不同速度(2-10 m/s)条件下的测试,评估了算法在计算延迟、安全性和轨迹平滑度等多个指标上的表现。结果如下图所示,该方法在1.6ms的规划时间下就能完成推理,明显优于其他方法,同时在安全性指标上也展现出了较好的性能。
▲图5 YOPO与其他主流算法性能比较
■4.3真机实验在真机实验环节,作者使用了一台配备250mm直径、重1.13kg的四旋翼飞行器进行验证。飞行器搭载RealSense D455相机(87°×58° FOV,6m感知范围)和Xavier NX计算单元。实验在密度为1/10 tree/m²、树木直径约0.25m的密集森林环境中进行。实验结果如下图所示,该方法能够在实际场景中有效处理有限的深度观测和有限的传感器范围等挑战,成功实现了最⾼5.52m/s的高速飞行。这些结果验证了该方法在实际应用中的可行性和优越性。
▲图6 障碍物密集环境下的飞行轨迹与速度
端到端无人机规划算法YOPO将感知和建图、前端路径搜索以及后端优化集成到ResNet-18网络中。通过采用一组运动基元来覆盖搜索空间,并在前向传播中预测所有基元的偏移量和得分。通过对比实验,所提出的方法实现毫米级规划时间,并在与主流规划算法的比较中表现出了更优越的性能。
#Omni-Scene
Gaussian统一表征下的自动驾驶多模态生成新SOTA!
西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。近期生成+重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。
先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。然而,这种表示需要交叉视图重叠才能进行精确的深度估计,并且受到对象遮挡和截头体截断的挑战。因此,这些方法需要以场景为中心的数据采集来保持交叉视图重叠和完整的场景可见性,以规避遮挡和截断,这限制了它们在以场景为核心的重建中的适用性。相比之下,在自动驾驶场景中,一种更实用的范式是以自车为中心的重建,其特征是最小的交叉视图重叠和频繁的遮挡和截断。因此,基于像素的表示的局限性阻碍了先前工作在这项任务中的实用性。鉴于此,本文对不同的表示方法进行了深入分析,并引入了具有定制网络设计的泛高斯表示方法,以补充其优点并减轻其缺点。实验表明,在以自车为中心的重建中,Omni-Scene明显优于最先进的像素Splat和MVSplat方法,并在以场景为中心的重构中取得了与先前工作相当的性能。此外Omni-Scene用扩散模型扩展了我们的方法,开创了3D驾驶场景的前馈多模态生成。
- 论文链接:https://arxiv.org/abs/2412.06273
总结来说,本文的主要贡献有以下几个方面:
- 我们提出了Omni Scene,这是一种全高斯表示,具有量身定制的网络设计,用于自我中心重建,利用了基于像素和体积的表示,同时消除了它们的缺点。
- 将一种新的以自我为中心的重建任务引入到驾驶数据集(即nuScenes)中,目的是在仅给出单帧周围图像的情况下进行场景级3D重建和新颖的视图合成。我们希望这能促进该领域的进一步研究。
- 实验表明,我们的方法在自我中心任务上明显优于最先进的前馈重建方法,包括pixelSplat和MVSplat。进一步还通过在RealEstate10K数据集上执行以场景为中心的任务的先前工作获得了具有竞争力的性能。
- 通过将Omni Scene与2D扩散模型集成来展示其生成潜力,开创了一种以前馈方式多模态生成3D驾驶场景的新方法。
相关工作回顾
神经重建和渲染:最近利用神经渲染和重建技术的方法可以将场景建模为可学习的3D表示,并通过迭代反向传播实现3D重建和新颖的视图合成。NeRF因其在重建场景中捕捉高频细节的能力而受到认可。然而,在渲染过程中,它需要对每条光线进行密集的查询,尽管随后进行了加速,但这仍然导致了高计算需求,限制了其实时能力。3D高斯散斑(3DGS)通过使用3D高斯显式建模场景并采用高效的基于光栅化的渲染管道来缓解这个问题。尽管3DGS和NeRF及其变体在单场景重建中表现出了卓越的性能,但它们通常需要每个场景的优化和密集的场景捕获,这使得重建过程耗时且不可扩展。与这些工作不同,我们的方法可以在单次前向过程中从稀疏观测中重建3D场景。
隐式3D表示的前馈重建。这一系列工作将隐式3D先验(如NeRF或光场)纳入其网络中,以实现前馈重建。基于NeRF的方法利用具有多视图交叉注意力的Transformer,或使用极线和成本体积等投影3D先验来估计重建的辐射场,这继承了NeRF渲染的昂贵光线查询过程。因此,这些方法在训练和推理阶段都非常耗时。相比之下,基于光场的方法可以通过基于光线到图像的交叉注意力直接回归每条光线的颜色来绕过NeRF渲染,这牺牲了可解释性以提高效率。然而,由于缺乏可解释的3D结构,它们无法重建场景的3D几何形状。
三维高斯前馈重建。最近使用3DGS的方法可以实现可解释性和效率。通常,他们在网络中采用类似于基于NeRF的方法(例如,极线、成本量和多视图交叉注意力)的3D先验,并采用基于像素的高斯表示来预测沿射线的每像素高斯分布以进行重建。然而,这种基于像素的表示依赖于大的交叉视图重叠来预测深度,并且受到对象遮挡和截头锥体截断的影响,因此仅适用于以场景为中心的重建,适用性有限。相比之下,本文主要研究以自我为中心的重建,其特征是最小的交叉视图重叠和频繁出现的对象遮挡和截头体截断。这促使我们研究了一种新的3D表示方法,该方法不过度依赖于交叉视图重叠,同时可以解决基于像素的表示的局限性。
Omni-Scene方法详解
方法的整体框架图如下所示:
Volume Builder
体积生成器旨在使用基于体积的高斯模型预测粗略的3D结构。主要的挑战是如何将2D多视图图像特征提升到3D体积空间,而不显式地保持密集的体素。我们使用Triplelane Transformer来解决这个问题。然后,提出了体积解码器来预测体素锚定高斯GV。
Triplane Transformer。由于H×W×Z的立方复杂度,将体积表示为体素并为每个体素编码特征是昂贵的。因此,我们采用三平面将体积分解为三个轴对齐的正交平面HW、ZH和WZ。一些对象级3D重建工作也采用三平面表示来压缩体积。然而,它们要么依赖于三平面和图像之间密集的每像素交叉注意力,要么要求输入图像也与三平面对齐,以进行直接的2D级特征编码。它们都不适合具有更大体积和无约束数据收集的真实场景。
受最近3D感知方法]的启发,我们的三平面变换器利用可变形的交叉注意力,在2D和3D空间之间实现稀疏但有效的空间相关性。这里我们以HW平面的特征编码为例进行说明。如图3(b)所示,我们定义了一组网格形状的可学习嵌入作为transformer的平面查询,其中C表示嵌入通道。然后,对于位于(h,w)处的查询,我们将其扩展为沿Z轴均匀分布的多个3D柱点,并通过将它们投影回输入视图来计算它们在2D空间中的参考点Ref。由于这种透视投影的稀疏性,qh、w将只关注1/2输入视图中最相关的2D特征,以平衡效率和特征表现力。上述操作,即交叉图像可变形注意,在图3(b)中由紫色虚线箭头表示。我们推导如下:
考虑到查询柱点可能被遮挡或位于任何输入视图的截头锥体范围之外,我们进一步利用跨平面可变形注意力来丰富这些点的跨平面上下文。特别是,对于查询,我们将其坐标(h,w)投影到HW、ZH和WZ平面上,以获得三组参考点。
我们从不同的平面提取上下文信息,从而增强图3(b)中红色虚线箭头所示的特征。推导如下:
对所有平面的查询重复这两种交叉注意力,我们可以获得具有丰富语义和空间上下文的三平面特征,而不依赖于交叉视图重叠,这对于之前仅依赖基于像素的高斯表示的方法来说是必要的。
Volume解码器。然后,我们提出了体积解码器来估计体素锚定高斯分布。具体来说,给定一个位于(h,w,z)的体素,我们首先将其坐标投影到三个平面上,通过双线性插值获得平面特征,然后进行平面求和,得出聚合的体素特征。
Pixel Decorator
Pixel Decorator由多视图U-Net和像素解码器组成,分别负责提取跨视图相关特征和预测基于像素的高斯GP。由于GP是在与细粒度图像空间对齐的情况下获得的,因此它可以为粗体素锚定的高斯GV添加细节。此外,由于GP可以不投影到无限距离的位置,因此它可以用距离高斯来补充体积有界GV。
- 多视图U-Net concat图像特征;
- 像素解码器对U-Net特征进行上采样。
Volume-Pixel Collaboration
全高斯表示的核心在于基于体积和像素的高斯表示的协作。为此,我们提出了一种双重方法,可以从两个方面进行协作:基于投影的特征融合和深度引导的训练分解。
基于投影的特征融合。我们的Volume Builder预计将在输入视图中遮挡或截断的位置预测高斯分布,这超出了Pixel Decorator的设计目的。因此,为了使Volume Builder知道遮挡或截断发生的位置,我们建议将三平面查询与基于像素的高斯GP的投影特征融合。以HW平面为例,我们首先过滤掉GP中超出H×W×Z体积范围的高斯分布。然后,我们收集GP剩余高斯人的U-Net特征,并将其投影到HW平面上。投影到相同查询位置的特征被平均合并,并在线性层转换后添加到QHW的相应查询中。同样的过程也适用于ZH和WZ平面。我们在实验中证明,这种特征融合促进了GV和GP之间的互补相互作用,从而提高了性能。
Depth-Guided Training Decomposition:为了进一步加强协作,我们提出了一种深度引导训练分解方法,根据基于像素和体积的高斯的不同空间属性来分解我们的训练目标。
整体损失函数如下:
实验结果
结论
本文提出了Omni-Scene,这是一种具有Omni高斯表示的方法,可以在基于像素和体积的高斯表示中达到最佳效果,用于自我中心稀疏视图场景重建。采用鼓励体像素协作的设计,我们仅从周围的单帧观测中实现了高保真场景重建。大量实验表明,与以前的方法相比,我们在自我中心重建方面具有优势。此外,我们将2D扩散模型集成到我们的框架中,这使得多模态3D场景生成具有多种应用。