当前位置：首页 > news >正文

51c自动驾驶~合集54

news 2025/3/13 11:00:46

我自己的原文哦~ https://blog.51cto.com/whaosoft/13517811

#Chameleon

快慢双系统！清华&博世最新：无需训练即可解决复杂道路拓扑

在自动驾驶技术中，车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而，现有的解决方案存在明显局限性。一方面，密集视觉提示方法虽然准确，但计算成本高昂，且在实时处理中效率低下，难以应用于实际场景。另一方面，神经符号推理方法虽然效率较高，但在处理复杂场景（如交叉路口）时，常常因为缺乏视觉信息而无法做出准确判断。

为了解决这一难题，清华大学与博世中央研究院RIX联合提出了一个创新的解决方案——Chameleon。它通过一种快慢系统交替的神经符号方法，成功平衡了效率与性能，为自动驾驶领域带来了新的突破。

论文链接：https://arxiv.org/pdf/2503.07485

开源地址：https://github.com/XR-Lee/neural-symbolic

引言

在线地图感知是现代自动驾驶中的一个重要课题，它避免了对高成本高精地图的依赖。当前的三维场景理解方法虽然能够有效检测车道和交通元素（如图1所示），但这些实例之间的关系复杂，需要大量标注数据进行监督训练。为此，我们提出了一种基于视觉语言基础模型（VLM）的少样本（few-shot）方法，用于提取车道拓扑。

图1：VLM无法直接解决复杂的三维场景理解任务，例如车道拓扑提取。(a) 一种可能的方法是使用密集视觉提示（如RedCircle），虽然准确但效率低下。(b) 另一种方法是神经符号推理（如NS3D），但这种方法在程序合成时未能有效利用视觉输入，导致在处理复杂边缘情况时效果不佳。(c) 我们提出的Chameleon方法采用快慢交替的设计，其中一个VLM用于合成程序，另一个用于处理边缘情况。

具体而言，我们专注于OpenLane-V2定义的车道拓扑提取任务，即检测车道和交通元素（如交通信号灯和标志），并提取它们之间的关系。这一任务极具挑战性，需要高水平的推理能力，例如判断车辆在交叉路口是否可以驶入某条车道。然而，现有的VLM仍无法直接解决这种复杂的三维场景理解任务。

为解决这一问题，我们结合了两类基于VLM的方法：密集视觉提示和神经符号推理。密集视觉提示（如RedCircle）通过在图像上放置红色圆圈，将复杂推理任务转化为问答（QA）任务。但这种方法会导致大量的QA查询，计算成本高昂且不适合实时应用（如图1-a）。神经符号推理（如NS3D）虽然效率更高，但在程序合成时未能整合视觉信息，无法有效处理复杂边缘情况（如图1-b）。

因此，我们提出了一种名为“Chameleon”的快慢系统交替的神经符号车道拓扑提取器（如图1-c）。它通过VLM合成程序，根据视觉输入定制推理过程，并动态切换快慢系统以平衡效率和性能。此外，我们还提出了一个链式推理（COT）方法，用于识别和处理需要额外推理的边缘情况。

图二：Chameleon架构概览。输入多视图图像后，视觉模型分别生成交通元素和车道线段的检测结果。提出的快速系统利用一个大型视觉语言模型（VLM），以预定义的视觉-文本少样本和文本提示为输入，生成可执行代码以处理视觉模型的预测结果。提出的慢速系统包括一个视觉问答（VQA）API集和一个具有链式推理能力的视觉语言模型（VLM），其中VQA API集中的视觉提示和文本提示是VLM的输入。随后，拓扑推理结果是代码执行结果和VLM输出的组合。

方法

A. 概述

在车道拓扑提取任务中，我们预测一个密集的邻接矩阵，用于表示车道线段和交通元素之间的关系。具体来说，车道线段之间的关系由矩阵 A∈Rm×m 表示，车道线段与交通元素之间的关系由矩阵 A∈Rm×n 表示，其中 m 和 n 分别是车道线段和交通元素的数量。尽管密集视觉提示可以实现高性能，但其高昂的成本、环境影响和低效的推理速度使其不适用于实时应用。因此，我们采用链式推理（Chain-of-Thought, COT）方法，仅对稀疏的边缘情况进行密集视觉提示，从而提高推理效率。

为了高效处理任务，我们设计了快慢系统架构。快速系统使用符号表示处理基本推理任务，适用于简单场景（如直线车道）；而慢速系统则针对复杂边缘情况（如交叉路口的密集交通和多种交通元素）进行深度推理。这种架构通过动态切换快慢系统，平衡了效率和性能。

B. 提示

为了执行符号推理，我们使用多种提示来生成符号代码。这些提示包括带有few-shot参考的视觉提示（正例或负例）、API描述和专家规则。

API提示：API提示定义了生成代码的输入和输出，以及API的输入输出描述，例如用于车道自定位和并行车道搜索的函数等。在我们的实现中，我们还将选定的VQA任务定义为程序合成期间的API。
专家规则提示：为了稳定代码生成过程并整合领域专家的先验知识，我们将专家规则添加为程序合成的提示。例如，在TOP lsls任务中，强制执行角度和距离约束。例如，父车道的终点不应与子车道的起点相距过远，以满足驾驶几何约束。在TOP lste任务中，规则规定不允许在交叉路口内存在车道拓扑。
few-shot提示：在few-shot场景中，我们选择正例和负例，并将它们渲染为相机的透视图。我们还将这些示例的坐标转换为文本，分别作为视觉提示和文本提示。
VQA提示：对于VQA任务，文本提示由关于语义和空间上下文的简单问题组成。我们还使用链式推理（COT）提示。视觉提示基于预测结果从透视图和鸟瞰图中渲染图像。

图三：Chameleon架构示意图。输入多视图图像和文本提示后，Chameleon实现车道拓扑提取。每个API或密集视觉提示VQA任务表示为一个节点。具有链式推理（Chain-of-Thought, COT）能力的视觉语言模型（VLM）根据输入动态选择需要执行的节点，以推断拓扑结果。

C. 代码执行

对于生成的程序，TOP lsls和TOP lste任务的代码执行过程有所不同。对于TOP lsls任务，使用简单的成对预定义代码框架，VLM根据API描述和给定的提示生成Python代码。此代码以字符串形式生成，然后使用Python的exec函数执行。相比之下，TOP lste任务涉及更多的API调用（如图3所示），因此我们使用OpenAI的函数调用API来管理所需的函数执行。首先，我们提示VLM生成一个链式推理，以解决拓扑提取问题，该问题包含六个步骤（如图3执行模块所示）。这进一步用作文本提示，供VLM合成程序根据视觉输入自适应地跳过某些步骤。某些步骤涉及需要通过密集视觉提示VLM模型处理的边缘情况，因此被送入慢系统。通过总结API结果，系统可以推断出潜在的拓扑对。

D. 密集视觉提示VQA任务

密集视觉提示VQA任务是慢系统的核心API，特别是在开放场景拓扑推理的互操作过程中。为了测试VLM模型的能力，我们创建了几个基本的VQA任务。如表II所示，我们关注四个不同的任务。在“左或右”任务中，以鸟瞰图（BEV）的形式呈现两条车道线段。模型需要执行三类分类，选择左侧、右侧或无关系。对于“是否在交叉路口”任务，以马赛克形式显示单条车道，左侧为鸟瞰图（BEV），右侧为前方透视图（PV）。模型需要判断该车道线段是否在交叉路口内。在“邻接性”任务中，给出两条车道线段，模型需要判断它们是否相邻。最后，在“向量”任务中，模型需要评估两条渲染的向量箭头的方向是否匹配。

实验

A. 实验设置

我们在OpenLane-V2官方验证数据集上评估了Chameleon方法，该数据集提供了车道线段和交通元素之间的拓扑注释。此外，我们手动标注了500个样本，涵盖四个密集视觉提示VQA子任务，用于评估性能指标。这些数据集不仅支持车道拓扑提取任务，还适用于其他自动驾驶场景。

在评估指标方面，我们报告车道线段检测和交通元素检测的平均精度均值（mAP）。对于拓扑任务，采用OpenLane-V2官方指标TOPlsls（车道线段间拓扑mAP）和TOPlste（车道线段与交通元素间拓扑mAP）。对于VQA分类问题，由于正负样本在标注时保持平衡，我们使用准确率（Accuracy）作为评估指标。

B. 实现细节

我们将Chameleon方法应用于自定义基线，并进行了实验。基线方法结合了SMERF的SD编码和融合模块，使用LanesegNet框架检测车道线段，并通过DETR实现2D交通元素检测，同时并行训练TopoMLP以预测拓扑关系。为了进一步提升性能，我们还设计了一个增强基线（“Powerful Baseline”），引入了StreamMapNet的时间信息，使用更大的Vovnet作为骨干网络，并采用YOLOv8进行交通元素检测。在少样本学习场景中，我们采用3-shot配置，包含三个帧及其注释作为参考。

对于视觉语言模型（VLM），我们使用了GPT-4的官方API（包括GPT-4-vision-preview和GPT-4o）以及LLaVA-v1.5-13b-full ft-1e权重。此外，我们还进行了VQA基准测试，使用基于ResNet18的MLP分类模型，数据集按3:1比例分为训练集和测试集，采用Adam优化器和交叉熵损失函数进行20个周期的训练。

C. 定量和定性结果

与最新方法的比较：在本节中，我们将提出的少样本方法与OpenLane-V2验证集上的最新监督方法进行了比较。表I显示了与LaneSegNet、TopoLogic和MapVision等方法的比较结果。

我们的方法使用了两个不同的基线，每个基线使用不同的骨干网络。基线基于LanesegNet和TopoMLP实现，并结合了SMERF中的SD编码和融合过程。如表所示，我们的方法在few-shot设置中实现了与监督基线相当的性能，甚至在TOPlste任务中略微超过了全监督模型。总体而言，我们的方法在仅使用少样本的情况下表现出显著的竞争力。

图四：TopoMLP和我们的方法（Chameleon）在OpenLane-V2验证数据集上的定性结果对比。(a) 车辆刚刚通过交叉路口。(b) 前方有一个左转交通灯。(c) 地面车道标有直行标志。(d) 车辆行驶在单向右转车道上。所选场景均为边缘情况，需要通过密集视觉提示进行进一步推理。每个子图均包含鸟瞰图（BEV）和前视图（PV）。蓝色线条表示车道线段检测结果，绿色线条表示车道与交通元素之间的真正例（ls-te），粉色线条表示车道与交通元素之间的假正例（ls-te）。当车辆刚刚通过交叉路口时（图4-a），车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法（Chameleon）理解了绿灯与车道之间的空间关系，从而做出了正确的判断，而TopoMLP则相反。在图4-b中，左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同，我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志（图4-c），因此该标志仅与其自身车道和连接车道相关，而不是其他平行车道。我们的方法做到了这一点，而TopoMLP没有做到。车辆行驶在单向右转车道上（图4-d），控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

不同VLM方法的VQA比较：由于其通用性，VQA与各种VLM兼容。表II比较了不同VLM在四个任务上的性能。在这些任务中，我们发现GPT-4的性能与监督分类器模型相当，而LLaVA在语义和空间理解任务中表现较差。

数据和推理效率比较：为了比较不同方法之间的推理成本，我们在RTX 4080 GPU上测试了LLaVA的平均VQA任务延迟。平均VQA延迟约为1447毫秒。在我们的实验中，每帧平均执行6次VQA，导致慢速系统的延迟为8.7秒/帧。TopoMLP的延迟根据不同的骨干网络和图像分辨率而变化，范围从140毫秒到700毫秒。密集视觉提示的延迟是基于20×20矩阵的逐个VQA计算得出的，结果为每帧超过200秒。详细信息总结在表IV中。

定性结果：为了更直观地展示我们算法的性能，我们还提供了OpenLane-V2验证数据集上预测的ls-ls关系和ls-te关系的定性可视化结果。所有比较的场景均为边缘情况，每个子图均包含鸟瞰图和前视图。蓝色线条表示车道线段检测结果，绿色线条表示ls-te真正例，粉色线条表示ls-te假正例。

当车辆刚刚通过交叉路口时（图4-a），车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法（Chameleon）理解了绿灯与车道之间的空间关系，从而做出了正确的判断，而TopoMLP则相反。在图4-b中，左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同，我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志（图4-c），因此该标志仅与其自身车道和连接车道相关，而不是其他平行车道。我们的方法做到了这一点，而TopoMLP没有做到。车辆行驶在单向右转车道上（图4-d），控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

D. 消融研究

我们在OpenLane-V2验证集上对TOPlsls任务进行了消融研究，以评估我们框架中每个组件的有效性。结果如表V所示。“提示到符号”指的是仅提供API提示的基本神经符号推理。由于生成代码的不稳定性，我们报告了三次符号推理结果的平均值作为最终性能。“专家规则”指的是将专家观察结果纳入提示。对于少样本示例，我们引入了三个正例和三个负例以改进生成的程序。

结论

本文介绍了一种名为“Chameleon”的新方法，该方法结合了密集视觉提示和神经符号推理，利用视觉语言基础模型（VLM）以few-shot的方式提取车道拓扑。Chameleon通过整合视觉信息来合成程序，针对特定场景定制处理过程，并通过密集视觉提示高效地处理边缘情况。通过平衡计算效率和高性能，Chameleon适用于实时机器人应用，并展示了将视觉输入整合到复杂三维场景任务程序合成中的潜力。未来的工作可以探索将这种方法扩展到其他自动驾驶领域。

#GO-1

智元发布首个通用xx基座大模型

智元发布首个通用xx基座模型——智元启元大模型（Genie Operator-1），它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了xx智能门槛，并成功部署到智元多款机器人本体，持续进化，将xx智能推上了一个新台阶。

研究论文:

https://agibot-world.com/blog/agibot_go1.pdf

2024年底，智元推出了 AgiBot World，包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World，智元今天正式发布智元通用xx基座大模型 Genie Operator-1（GO-1）。

GO-1：VLA进化到ViLLA

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力，智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用xx基座大模型，基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比，ViLLA 通过预测Latent Action Tokens(隐式动作标记)，弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越，远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成，其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力，MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时，VLM、Latent Planner和Action Expert三者协同工作：

VLM 采用InternVL-2B，接收多视角视觉图片、力觉信号、语言输入等多模态信息，进行通用的场景感知和指令理解；
Latent Planner是MoE中的一组专家，基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning，规划链)，进行通用的动作理解和规划；
Action Expert是MoE中的另外一组专家，基于VLM的中间层输出以及Latent Action Tokens，生成最终的精细动作序列；

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert：

混合专家一：

Latent Planner（隐式规划器）

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集，但这样高质量带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。为此，我们采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，然后通过Latent Planner预测这些Latent Actions，从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

Latent Action Model（LAM，隐式动作模型）主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth（真值），它由编码器和解码器组成。其中：
编码器采用Spatial-temporal Transformer，并使用Causal Temporal Masks（时序因果掩码）。
解码器采用Spatial Transformer，以初始帧和离散化的Latent Action Tokens作为输入。
Latent Action Tokens通过VQ-VAE的方式进行量化处理。
Latent Planner负责预测这些离散的Latent Action Tokens，它与VLM 主干网络共享相同的 Transformer 结构，但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息，通过Cross Entropy Loss（交叉熵损失）进行监督训练。

混合专家二：

Action Expert（动作专家）

为了实现 High-frequency（高频率）且 Dexterous（灵活）的操控，我们引入Action Expert，其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

Action Expert结构设计上与Latent Planner类似，也是与 VLM 主干网络共享相同的 Transformer 结构，但使用两套独立的FFN和Q/K/V/O投影矩阵，它通过Denoising Process（去噪过程）逐步回归动作序列。
Action Expert与VLM、Latent Planner分层结合，确保信息流的一致性与协同优化。

实验效果

通过Vision-Language-Latent-Action (ViLLA) 创新性架构，我们在五种不同复杂度任务上测试 GO-1，相比已有的最优模型，GO-1成功率大幅领先，平均成功率提高了32%(46%->78%)。其中 “Pour Water”（倒水）、“Table Bussing”（清理桌面）和 “Restock Beverage”（补充饮料）任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用，可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

GO-1：xx智能的全面创新

GO-1大模型借助人类和多种机器人数据，让机器人获得了革命性的学习能力，可泛化应用到各类的环境和物品中，快速适应新任务、学习新技能。同时，它还支持部署到不同的机器人本体，高效地完成落地，并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面：

人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解，更好地为人类服务。
小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了xx模型的使用门槛，使得后训练成本非常低。
一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，群体升智。
持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

智元通用xx基座大模型GO-1的推出，标志着xx智能向通用化、开放化、智能化方向快速迈进：

从单一任务到多种任务：机器人能够在不同场景中执行多种任务，而不需要针对每个新任务重新训练。
从封闭环境到开放世界：机器人不再局限于实验室，而是可以适应多变的真实世界环境。
从预设程序到指令泛化：机器人能够理解自然语言指令，并根据语义进行组合推理，而不再局限于预设程序。

GO-1大模型将加速xx智能的普及，机器人将从依赖特定任务的工具，向着具备通用智能的自主体发展，在商业、工业、家庭等多领域发挥更大的作用，通向更加通用全能的智能未来。

#DecoupledGaussian

基于物理的前提

为了提升真实感，研究逐渐超越了传统表示方式，如点云、网格、体素网格和有符号距离场（SDF）。神经辐射场（Neural Radiance Fields, NeRF）利用神经渲染技术从视频中生成新视角图像，使得模拟内容能够直接来源于捕获的数据，从而应用于交互式游戏、动画和仿真。此外，高斯喷溅（Gaussian Splatting, GS）因其快速渲染和重建速度而广受关注。GS 利用离散高斯核来表示 3D 场景，使得从视频中重建的物体更容易直接操作和处理。

然而，当前基于物理的仿真方法，无论是使用 NeRF还是 GS，大多仅关注合成物体，这允许在重建过程中对物体进行全视角观察；或者仅支持弹性形变与抖动，即物体仍受限于初始接触表面，无法真正脱离并独立运动。因此，当用户施加外部冲击力时，这些方法无法实现物体的真实分离。

为了让物体能够在仿真前摆脱初始接触表面的限制，我们需要首先将物体与接触表面解耦。在现实环境中，物体通常受重力影响，并停留在其他表面上，例如图 1 中基座上的雕塑。在拍摄过程中，物体与其接触表面往往被视为一体，这会导致部分区域隐藏或被遮挡，使得物体表面的表示变得支离破碎。因此，解耦的主要挑战在于：在仿真前准确恢复并补全物体及其周围场景的 3D 结构。

为了解决这一问题，本文介绍的**DecoupledGaussian[1]**，该系统利用高斯喷溅（GS）从自然场景视频中恢复物体及其接触表面的 3D 几何结构和纹理，为真实的物体-场景交互式仿真奠定基础（见图 1）。值得注意的是，2D 修复（inpainting）（如图 2）通常难以进行 3D 恢复，尤其是在准确捕捉几何位置信息方面。我们的方法通过结合几何先验（假设表面为封闭形状）和多视角观察，从训练视角恢复真实的物体与场景几何，克服了这些限制。

具体而言，我们的方法采用 联合泊松场（Joint Poisson Fields） 来重建物体和场景的形状指示符，以解决物体与场景的 交叉区域问题。直接使用高斯中心点可能会导致物体重建出现 表面偏差，因为混合渲染会引入伪影。为避免此类问题，我们采用基于平面的 GS 方法，使用无偏深度图创建代理点，以实现更真实的物体重建。此外，我们引入单向负交叉熵方法进行多视角雕刻，以优化几何结构，使其与观测视角对齐。

DecoupledGaussian 是首个无需 2D 修复即能独立恢复物体和接触表面几何结构的系统。2D 修复仅用于纹理属性的优化。我们在真实视频数据集上进行了大量实验，包括新的解耦基准（decoupling benchmark），并结合用户研究、定量比较和消融实验，验证了我们的方法在恢复精确 3D 属性和实现精准交互仿真方面的有效性。

项目链接：https://wangmiaowei.github.io/DecoupledGaussian.github.io/

主要贡献：

开发了一种物体-场景交互式仿真系统，该系统允许物体在由自然场景视频重建并表示为 GS 后，与接触表面完全分离。
引入几何先验，利用联合泊松场和多视角观察结合单向负交叉熵（UNCE），提升 GS 中的几何属性恢复能力

具体方法

DecoupledGaussian 系统从重建的高斯喷溅 GS 场景开始，允许静止在平面表面的物体在仿真中实现合理的分离运动，如图 3 所示。首先，物体被分割出来，并采用基于平面的 GS 使高斯点对齐到底层的场景几何结构。在物体与场景分离后，系统利用几何先验信息，通过联合泊松场 Joint Poisson Fields 修复物体和场景的破损表面。对于物体，代理点 proxy points 被用作泊松场的输入，并通过单向负交叉熵 Unilateral Negative Cross-Entropy 方法进行雕刻，以确保几何结构与训练视角对齐。然后，使用二维修复技术对高斯的纹理属性进行优化，最后通过移动最小二乘-材料点法 MLS-MPM 进行物体和场景的实时交互式仿真。本节将详细介绍各个阶段的实现方法。

三维高斯准备

场景使用普通消费级相机自由录制，然后使用 COLMAP 进行内外部标定，并生成初始高斯中心点。

基于平面的高斯喷溅

仅依赖图像重建损失优化标准的三维高斯模型通常会陷入局部最优，使得几何提取变得困难，而准确的几何提取对于后续的修复阶段至关重要。为了避免这一问题，我们采用 PGSR 方法进行无偏深度估计。

由于标准高斯分布的无序性，我们首先将高斯点压缩到与场景表面对齐的近似局部平面，通过最小化尺度项进行优化，以在允许一定渲染质量损失的情况下提高几何精度。

压缩到平面后，我们为高斯点分配法向量，其方向由视角方向确定。到图像平面的距离计算如下：

其中，为从相机中心到高斯中心的向量。最终，在像素处的无偏深度计算如下：

其中，为相机的内参矩阵，为像素的齐次坐标。压缩后的高斯点提供了单视角和多视角的几何正则化，以保证几何一致性，并通过曝光补偿来减少光照变化的影响。

高斯分割

我们采用 GS 分割方法，为每个高斯核赋予语义亲和特征，并通过一个单层 MLP 将 -混合后的特征映射到个分割类别的概率分布，并使用 softmax 进行归一化。网络使用交叉熵损失进行训练，训练数据为 SAM2 生成的多视角二维分割标签。为了减少相邻高斯点之间的误分类，我们应用了局部特征平滑。

物体-场景修复

为了模拟物体与其周围场景表面的交互，我们首先需要将从中分离出来。具体方法是通过比较语义亲和特征与像素点处的 -混合特征，确定属于的高斯点集。然后，利用 K 近邻方法去除表示残留伪影的临近高斯点。接下来，我们修复并补全和，以实现真实的物理仿真。

联合泊松场

本方法的核心贡献之一是对 GS 的几何属性进行几何修复，假设物体和场景是平滑、封闭的形状。基于泊松曲面重建与环绕数场的等价性，我们提出联合泊松场 Joint Poisson Fields，该方法利用异构约束同时修复和的几何结构。具体步骤如下：

通过屏蔽泊松重建计算场景表面和物体表面的指示函数和，以隐式方式确保曲面具有最小曲率。
通过世界坐标变换，将映射到所在的网格中，并在交叉区域处进行冲突解决，以确保和互不重叠。
从生成密集内部点集，并应用 Marching Cubes 算法将转换为网格，随后进行重网格化和裁剪，最终转换为世界坐标系。

代理点

由于 -混合效应，直接使用高斯中心点可能无法准确表示的复杂表面。为此，我们引入代理点以增强泊松重建质量。

单向负交叉熵

泊松场通常会导致几何扩张，即额外填充了不属于的体积。为了解决这一问题，我们提出单向负交叉熵进行多视角雕刻。具体公式如下：

其中，为 SAM2 生成的二真实物体掩码，为当前优化过程中物体的值。

高斯恢复

对于场景的修复，我们首先绑定新的平坦三维高斯到网格，并最小化其法向方向的缩放因子。在后续优化中，仅优化纹理属性，而几何属性设为固定值。

交互式仿真

我们利用 MLS-MPM 对修复后的高斯进行仿真，以支持用户施加冲击力、弹性形变、碰撞和断裂等交互场景。在 MLS-MPM 网格操作阶段，我们将场景的网格节点速度设为零，以模拟粘附边界条件。此外，我们使用 RANSAC 估算平面法向量，以自动对齐重力方向。

实验效果

总结一下

本文提出了 DecoupledGaussian，这是一种快速且鲁棒的方法，能够从接触表面分离静态物体，并恢复其几何和纹理，以实现基于 MLS-MPM (Moving Least Squares Material Point Method) 模拟器的物体-场景交互。

局限性：本研究未涉及包含多个物体的复杂场景，特别是当物体之间具有不同的接触配置时。此外，物体恢复中的高频纹理补全仍然具有挑战性，未来可能需要借助基于 GS (Gaussian Splatting) 的纹理生成方法来提升细节质量。此外，如何进一步对个体物体的精细组件 (fine-grained components) 进行分离仍是一个待解决的问题。

参考

[1] DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

#浅聊自动驾驶端到端的脉络整理

感知&预测&规划背景自动驾驶感知最近似乎进入瓶颈期，接近一年的时间Nuscenes障碍物检测榜单都不再有更新，而大模型如火如荼的发展把数据驱动的AI发展逻辑也代入了自动驾驶领域。这篇博客主要是想把最近关注到的一些自动驾驶端到端的论文整理一下，捋出一些有价值的思路和想法。

参考VAD的论文思路，我会把端到端整体划分为3部分：

感知端到端
预测端到端
规划端到端-端到端整体架构

感知端到端

感知端到端这一块主要涉及到多传感器融合和时序融合。我想从障碍物和车道线这2个领域分别调一篇比较有代表性的论文聊一聊。

障碍物：Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

nuscensce视觉障碍物检测SOTA方案，整体架构延续DETR一派，新增维护memory队列，其中巧思很多，主要有一下几点：

可学习query中新增队列实例做初始化（注意速度，是否拿来做障碍物的位置编码残差项？）
按属性拆分的attention
在模型中做实例信息整合，而无需显式匹配，在记忆队列里维护实例id

车道线：MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

选择这篇主要是思路和效果都不错，放个效果图大家感受一下~

这篇文章比较吸引我的一个点在架构上

这篇文章和上面的Sparse4D一样是维护了2个记忆队列，可以把这些记忆队列理解为车道线的隐藏状态，这个状态在时序迭代中是越来越切合实际的。可以着重关注一下Minit的2个feature，可以看到在推理的初始阶段这2个tensor是不包含什么信息的，随着推理，这2个tensor的信息实际上由t-1时刻的特征替代，整个架构的前一部分是做t-1 - > t时刻的预测，后一个阶段是做t-1和t时刻的特征融合和t时刻的状态估计，整个流程和卡尔曼滤波几乎别无二致，这也算是一种致敬吧，哈哈哈

思考点：这里的所有CA能不能参考LLM换成因果attention？

预测端到端

1. FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras

虽然是21年的文章，但是确实非常经典

文章的预测部分引入一个隐藏的状态，这个状态满足个元素相互独立的多元正态分布，通过网络预测其期望和方差，再通过分布采样一个状态作为当前时刻的隐藏状态，这个隐藏状态又作为输入用来预测下一时刻的环境。

个人觉得这样建模是比较好的体现了未来的不确定性。

2. Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction

把障碍物轨迹预测建模为多智能体+多运动模式的组合，核心点在下面这个公式，可以按MapTRV2的思路去理解，即智能体和运动模式看做正交的2个变量，通过2者间的组合可以构建其智能体运动空间

下面是不同运动模式的运动终点的可视化分析，可以看到不同运动模式的偏好

这篇文章的建模稍显复杂，感觉不是很必要，整体思路上参考一下就行了

规划端到端-端到端架构

这一部分主要介绍一下最近看的几篇比较流行的端到端架构，总结一下异同。

1. VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

首当其冲的这篇论文架构重点确实清新，指出了端到端的核心点，规划模块。实际上这篇论文很清晰的指出了规划模块的输入输出和约束。

输入包含几块：感知结果，原始图像信息，导航信息和自车运动信息。

输出：规划轨迹的概率分布

监督信号：实际轨迹与预测轨迹的KL散度

约束信息：地图和其他障碍物约束

最后提一句损失函数，有3部分：

轨迹的概率分布之间的KL散度
碰撞等约束条件的冲突损失
感知的监督损失

这样重点清晰，逻辑自谦，可视化简洁的文章可真是懒人最爱~~~

2. Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

这篇文章与VAD师出同门，一样优秀的可视化功底，几张图基本把训练流程、模型架构和模块间相互支撑的关系讲清楚了

这篇是VLM结合端到端的文章，重点主要在VLM的设计上，以下是VLM关注的几个问题：

场景描述
交通灯状态
VRU信息
其他障碍物的运动信息
自车的运动规划
运动规划的解释

这几个问题解释了规划的逻辑并为端到端提供高级的驾驶意图指导

这个图展示了VLM和E2E的信息交互，2个模块间的相互支撑很明显

2.1 DRIVEVLM: The Convergence of AutonomousDriving and Large Vision-Language Models

DriveVLM的架构跟Senna很像，都是VLm和E2E并行交互，但是某种程度上来说DriveVLM走的更远一些

上面是DriveVLM的架构，VLM的推理部分更加格式化，且推理之间的递进关系可能能帮助其推理逻辑更加缜密

VLM推理的3步：

分析理解场景，找出关键障碍物
分析关键障碍物，给出其状态和其与自车的交互信息
生成驾驶意图，分为3层：

3.1 meta-action：意图动作

3.2 decision：动作规划

3.3 Waypoints：具体的轨迹点

还给出了推理标注流程，数据集构建流程：

长尾目标挖掘和挑战的场景挖掘
人工过滤
关键帧挑选
场景标注
人工校验

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

这篇文章是纯VLM支撑的端到端自动驾驶，输入图像和文本信息，输出感知和规划路径

基于CoT的规划，推理部分包含4个主题：

场景理解
关键目标
关键物体的行为描述
元决策（例如保持低速直行）

方案有些激进，但是一体化的思路值得参考

4. RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based

Reinforcement Learning

提出利用GS多视角图像，支持训练的反馈闭环

3阶段训练：

s1：感知预训练

s2：规划预训练

s3：规划策略网络强化学习

同时使用PPO强化学习和模仿学习

强化学习的4种反馈信息，GS生成能比较好的模拟这些corner case：

动态障碍物碰撞
静态账务碰撞
位置偏移专家轨迹
航向角偏移专家轨迹

#Omni-Scene

以自车为中心的3D场景重建大模型

本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果，相关论文已被 CVPR 2025 接收，代码/数据/模型权重已开源。

论文链接：https://arxiv.org/abs/2412.06273
项目代码：https://github.com/WU-CVGL/Omni-Scene
团队主页：https://ethliup.github.io/

工作简介

背景与动机

此前3D重建大模型工作如LGM、pixelSplat、MVSplat等，主要关注以物体或场景为中心（Scene-Centric）的多视角重建，其要求输入图像之间存在较大的视角重叠，在应用时往往需要围绕物体或场景拍摄多张图像或视频。

这种较为低效的输入采集方式，不适用于对实时性要求很高的自动驾驶或具身智能领域的应用，其最理想的情况是：基于车辆/机器人当前位置所拍摄的图像，即可重建场景的3D外观和结构，使得智能系统可以在空间层面进行即时的交互和理解。

本文基于此观察，旨在研究一种以车辆/机器人为中心（Ego-Centric）的多视角3D重建大模型，无需围绕场景移动，基于单帧所拍摄的多视角图像，即可实现即时的大规模场景3D重建。

从上述目标出发，本文发现限制此前方法仅适用于以物体或场景为中心（Scene-Centric）重建的一个重要原因在于：此前方法所使用的像素对齐的3D表示方式，依赖于输入图像间的视角重叠来获取深度信息，从而将2D图像信息升维至3D空间，实现3D层面的重建相关参数的预测（如：NeRF、3DGS）。因此，本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作（如：BEVFormer、TPVFormer）的启发，本文认为体积表示可以直接在3D层面融合多视角的2D特征，无需预测深度，可以很好地补足此前基于像素表示的缺陷。

故而本文对不同3D表示的特点进行了如图1所示的分析，可以看到对于像素表示，其沿相机射线方向做反投影的方式有2个缺陷：（1）无法预测被遮挡的物体；（2）无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷，然而其也存在2个问题：（1）受限于长宽高范围，无法表示远处的建筑或天空等；（2）受限于O(n3)的复杂度，难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

图1. 基于不同表示进行3D重建的示意图和效果对比

考虑到上述不同表示的优缺点及其互补性，本文提出了一种新颖的Omni-Gaussian表示方法，并为其精心设计了网络框架，从而对此前表示方法取长补短，实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明，本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势，证明了本文方法的有效性。此外，同2D图像生成方法如MagicDrive结合，本文还可实现多模态控制的3D场景生成，为前馈式（feed-forward）的场景级3D生成开辟了一种可能性。

技术方案

1. 整体框架:
如图2所示，本文的整体框架由共享多视角图像特征的体积分支（Volume Builder）和像素分支（Pixel Decorator）构成，它们分别用来预测基于体素和像素的3D高斯球参数，并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

图2. Omni-Scene方法的总体框架

2. 体积分支（Volume Builder）:
如图2(b)所示，体积分支采用稀疏的三平面（triplane）特征以节省计算开销，其通过三个平面的特征插值获取每个体素位置的特征，并预测以体素为锚点（anchor）的3D高斯球，以实现粗粒度的3D场景重建，描绘其大体结构。为了将2D图像特征转换到triplane，本文借鉴3D感知工作中常用的可变形注意力机制（Deformable Attention），从2个维度对triplane特征进行编码和增强。其一，为了将多视角2D图像特征升维至3D，本文先将triplane每个位置扩展成柱状空间体素，接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标，并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征，以获得3D层面的特征编码。其二，为了促进triplane不同平面特征的对齐与融合，本文将每个平面所扩展的柱状体素投影到另外2个平面，并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征，以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下：

其中，CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。

3. 像素分支（Pixel Decorator）:
如图2(c)所示，像素分支采用了多视角U-Net网络（Multi-View U-Net），并在网络的每一层施加多视角特征间的交叉注意力机制，以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征，可以预测每个视角的像素深度和对应的3D高斯球参数，其映射到3D空间后可实现细粒度的3D场景重建，用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度，本文还提出用Metric3D-v2粗略预测像素深度，用于初始化3D高斯球的位置，发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示：

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。

4. 不同表示间的互补机制（Volume-Pixel Collaboration）:
本文的一个核心目标是促进上述两种表示的互补，考虑到两种表示的不同特性，本文提出了如图2所示的2个维度的设计。其一为Featrure Projection，为了促进两种表示在3D空间上的对齐，使得它们能够各自感知到另一种表示需要被补足的空间区域，本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上，以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition，考虑到体积表示长宽高受限的空间范围，其不适用于重建HWZ范围外的场景，本文提出基于像素表示所预测的深度，对本文的训练目标进行解耦。具体地，本文基于每个target视角所预测的深度将像素坐标投影到3D坐标，并将这些3D坐标中位于自车HWZ范围外的像素筛选出来，不计入损失函数的计算，使得体积表示可以专注于HWZ体积内的3D重建，并让像素表示来补充HWZ体积外的3D重建。因此，本文的总体损失函数如下：

其由full和volume两部分组成，以实现训练目标的解耦。

实验结果分析

本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务，并展开了实验，其包含135,941个训练场景和30,080测试场景。同时，本文还在RealEstate10K数据集上进行了实验，用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出，本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法（包括：pixelSplat、MVSplat），验证了Omni-Scene方法的有效性。此外，表2的消融实验详细论证了本文各模块的性能增益，验证了本文各项设计的有效性。

表1. Omni-Scene方法与SOTA的对比

表2. Omni-Scene方法的消融实验

总体来说，基于6张Ego-Centric的环视多视角图像，本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

图3. Omni-Scene方法的新视角合成效果

此外，通过与自动驾驶domain的2D图像生成方法MagicDrive结合（即：先生成多视角2D图像，再重建3D场景），本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成，初步探索了场景级的前馈式（feed-forward）3D生成的可能性，拓宽了本文方法的应用场景。

图4. Omni-Scene方法的3D场景生成效果

个人和团队信息

韦东旭

本文第一作者，浙江大学博士毕业，曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究，目前在西湖大学计算机视觉和几何深度学习实验室担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。

西湖大学-计算机视觉和几何深度学习实验室

该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院（ETH Zurich），师从 Marc Pollefeys 教授和 Andreas Geiger 教授，2021年获得计算机科学专业科学博士学位后加入西湖大学，目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域，成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校，拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。