当前位置：首页 > news >正文

NTA-IoU指标提升超42%，北京大学提出首个使用世界模型提升自动驾驶场景重建质量DriveDreamer4D

news 2024/10/22 9:49:10

Abstract

闭环仿真是推进端到端自动驾驶系统的重要环节。当代传感器仿真方法，如NeRF和3DGS，主要依赖与训练数据分布高度一致的条件，这通常局限于前向驾驶场景。因此，这些方法在渲染复杂的机动动作（如变道、加速、减速）时存在局限性。近年来，自动驾驶世界模型在生成多样化驾驶视频方面展现了潜力，但这些方法仍然局限于二维视频生成，无法捕捉动态驾驶环境所需的时空一致性。在本文中，我们提出了DriveDreamer4D，通过利用世界模型先验知识提升4D驾驶场景表示。具体来说，我们将世界模型作为数据机器，基于真实世界的驾驶数据生成新颖的轨迹视频。值得注意的是，我们明确利用结构化条件来控制前景和背景元素的时空一致性，从而使生成的数据严格遵循交通约束。据我们所知，DriveDreamer4D是第一个利用视频生成模型来提升驾驶场景4D重建质量的框架。实验结果显示，DriveDreamer4D在新轨迹视图下显著提升了生成质量，相比于PVG、S3Gaussian和Deformable-GS，分别在FID指标上提升了24.5%、39.0%和10.5%。此外，DriveDreamer4D显著增强了驾驶代理的时空一致性，通过全面的用户研究和NTA-IoU指标的提升分别达到了20.3%、42.0%和13.7%的相对提升。

项目地址：https://drivedreamer4d.github.io

欢迎加入自动驾驶实战群

Introduction

端到端规划直接将传感器输入映射为控制信号，是自动驾驶中最关键和最有前途的任务之一。然而，目前的开环评估不足以准确评估端到端规划算法，凸显了增强评估方法的迫切需求。一个引人注目的解决方案是在真实场景中进行闭环评估，这需要从任意指定的视角获取传感器数据。因此，这需要构建一个能够重建复杂、动态驾驶环境的4D驾驶场景表示。

驾驶环境中的闭环仿真主要依赖于场景重建技术，如神经辐射场（NeRF）和3D高斯点云（3DGS），这些技术本质上受到输入数据密度的限制。具体来说，这些方法只能在与其训练数据分布高度一致的条件下有效渲染场景，主要限于前向驾驶场景，并且在处理复杂机动动作时表现不佳。为了解决这些限制，方法如SGD和GGS利用生成模型扩展训练视角范围。然而，这些方法主要补充稀疏图像数据或静态背景元素，无法建模动态交互驾驶场景的复杂性。最近，自动驾驶世界模型的进展引入了生成多样化、指令对齐的视频视角的能力，为自动驾驶中的闭环仿真带来了新的希望。然而，这些模型仍然局限于二维视频，缺乏准确建模复杂驾驶场景所需的时空一致性。

在本文中，我们提出了DriveDreamer4D，通过集成自动驾驶世界模型的先验知识改进4D驾驶场景表示。我们的方法利用自动驾驶世界模型作为生成引擎，生成新颖的轨迹视频数据，以增强真实世界驾驶数据集的训练效果。值得注意的是，我们提出了新颖的轨迹生成模块（NTGM），用于生成多样化的结构化交通条件。DriveDreamer4D应用这些条件来独立调节复杂驾驶环境中前景和背景元素的运动动态。这些条件经过与车辆机动同步的视图投影，确保生成数据严格遵守4D驾驶场景的时空约束。据我们所知，DriveDreamer4D是第一个利用视频生成模型来提升自动驾驶4D场景重建质量的框架，为变道、加速和减速等场景提供丰富多样的视角数据。实验结果表明，DriveDreamer4D在新轨迹视角下显著提升了生成质量，与PVG、S3Gaussian和Deformable-GS相比，分别在FID指标上提升了24.5%、39.0%和10.5%。此外，DriveDreamer4D加强了前景和背景元素的时空一致性，分别在NTA-IoU指标上提升了20.3%、42.0%和13.7%。此外，一项全面的用户研究确认，DriveDreamer4D相较于三个基线模型的平均胜率超过了80%。

3.Method

在本节中，我们首先介绍4D驾驶场景表示和用于驾驶视频生成的世界模型的初步内容。然后，详细介绍DriveDreamer4D如何利用驾驶世界模型的先验知识来增强4D驾驶场景表示。

3.1 初步介绍

3.1.1 4D驾驶场景表示

4DGS（4D高斯点云）通过一组3DGS（3D高斯点云）和时间场模块来建模驾驶场景。每个3DGS由其中心位置x、不透明度γ、协方差Σ和视角相关的RGB颜色c参数化，并通过球面谐波控制。为了确保稳定性，每个协方差矩阵Σ通过以下公式分解：

其中，缩放矩阵S和旋转矩阵R是可学习的参数，分别表示为缩放s和四元数r。单个3D高斯的所有可训练参数统称为ϕ = {x, γ, s, r, c}。时间场F将ϕ和时间步长tgs作为输入，输出相对于规范空间的每个高斯的偏移量δϕ = {δx, δγ, δs, δr, δc}。接下来，4D高斯ϕ’ = {x’, γ’, s’, r’, c’}通过以下公式计算：

我们采用可微高斯点渲染器将4D高斯ϕ投影到相机坐标系中，得到协方差矩阵Σ’ = JVΣVᵀJᵀ，其中J为透视投影的雅可比矩阵，V为变换矩阵。每个像素的颜色通过N个有序点使用α混合计算得出：

其中Ti表示透光率，由

公式定义,代表每个点的颜色，αi通过评估与协方差Σ’相关的2D高斯，并与每点学习的不透明度相乘得到。通过RGB损失、深度损失和结构相似性（SSIM）损失的组合，可以优化可训练参数ϕ’：

其中，和分别表示渲染图像和真实图像，和分别为渲染深度图和真实的LiDAR深度图。SSIM(·)是结构相似性指数度量操作，λ1、λ2、λ3为损失权重。

解释：通过以上方法，4DGS模型可以捕捉驾驶场景中的时空信息，确保驾驶代理和背景元素在复杂驾驶环境中的一致性和连续性。

3.1.2 世界模型用于可控驾驶视频生成

世界模型模块通过预测想象中的动作序列，推测可能的未来世界状态。基于扩散模型的自动驾驶世界模型利用结构化的驾驶信息或动作控制来引导未来视频的预测。在训练期间，这些模型首先通过变分编码器E将视频v编码为低维的潜在空间

。然后，向潜在空间添加噪声ϵt，扩散模型学习去噪过程。该扩散过程通过以下公式优化：

其中，ϵθ是参数化的去噪网络，t表示时间步，代表每个阶段添加或去除的噪声量。此外，为了提高生成数据的可控性，可以在反向扩散过程中引入条件特征f（例如参考图像、速度、转向角、场景布局、相机姿势和文本信息），确保生成的输出符合输入控制信号。在推理过程中，世界模型可以通过参考图像来控制输出场景的风格，同时预测与其他输入动作相关的未来世界状态。

3.2 DriveDreamer4D

DriveDreamer4D的总体流程如图2所示。在上半部分，我们提出了新轨迹生成模块（Novel Trajectory Generation Module, NTGM），用于调整原始轨迹动作（如转向角和速度）以生成新的轨迹。这些新轨迹为提取结构化信息（如3D框和高精度地图细节）提供了新的视角。随后，可控视频扩散模型通过这些更新的视角合成视频，并结合与修改轨迹相关的特定先验知识。

在下半部分，原始和新轨迹视频被整合，用于优化4DGS模型。接下来的部分将详细介绍如何生成新轨迹视频，并进一步介绍如何通过视频扩散的先验进行4D重建。

3.2.1 Novel Trajectory Video Generation

传统的4DGS方法在渲染复杂操作时受到限制，主要原因是训练数据多以直线驾驶场景为主。为了解决这一问题，DriveDreamer4D利用世界模型先验生成多样化的视角数据，增强4D场景表示。为此，我们提出了新轨迹生成模块（NTGM），旨在创建新的轨迹作为输入，使世界模型能够自动生成复杂操作的数据。NTGM包含两个主要部分：

1.新轨迹提议：使用文本到轨迹的转换方法自动生成各种复杂的轨迹。此外，还可以根据具体需求自定义设计轨迹，以便生成精确满足需求的数据。2.轨迹安全评估：在生成新轨迹后，需确保轨迹的安全性。

3.2.2 4D重建与视频扩散先验

通过将多个新轨迹视频和原始视频相结合，DriveDreamer4D可以利用扩散模型生成的视频来提高4DGS场景的精度和一致性。视频的生成不再仅依赖于原始输入，而是通过修改后的控制信号和先验知识，以确保生成的4D场景能够保持空间和时间上的一致性。

新轨迹提议的总体过程（如变道）及轨迹安全评估见算法1。在特定的驾驶场景下，可以轻松获取原始轨迹在世界坐标系中的表示，记为

，其中 K表示帧数，

代表自车在第 iii 帧的位置。为了提出新轨迹，首先将原始轨迹

转换到第一帧的自车坐标系中，表示为

，计算公式如下：

其中，

代表从第一帧的自车坐标系转换到世界坐标系的变换矩阵，符号“[·]”表示拼接操作。在自车坐标系中，车辆的朝向与x轴正方向对齐，y轴指向车辆的左侧，z轴垂直向上，垂直于车辆平面。因此，车辆速度和方向的变化可以分别通过调整x轴和y轴的值来表示。生成的新轨迹点需要进行最终的安全评估，确保车辆轨迹 p保持在可行驶区域

内，并确保不会与行人或其他车辆

发生碰撞：

其中，是不同交通主体之间的最小距离。一旦生成符合交通规则的新轨迹，路结构和3D边界框可以从新轨迹的视角投影到摄像头视图上，从而生成与更新轨迹相关的结构化信息。然后将这些结构化信息与初始帧和文本一起输入到世界模型，生成沿着新轨迹的视频。

3.2.2 4D重建与视频扩散先验

基于视频扩散先验，我们可以生成具有不同轨迹的新视频，从而增强4D重建能力，并跨不同基线进行提升。具体而言，为了使用视频扩散先验训练4DGS（4D高斯点云），关键是构建一个混合数据集

，该数据集将原始轨迹数据集与新轨迹数据集

相结合。通过超参数调整这两个数据集之间的平衡，我们可以控制4DGS场景在原始和新轨迹上的重建性能。这种关系可以通过以下公式表达：

优化4DGS的生成数据的损失函数

，定义如下：

其中，

代表与新轨迹对应生成的图像，如在3.2.1节中所述，

代表通过可微分splating渲染的新轨迹下的图像。值得注意的是，在使用生成数据集

时，优化4DGS模型时不采用深度图作为约束。其限制在于，LiDAR点云数据仅用于原始轨迹。当这些LiDAR点投影到新轨迹时，不能为新视角生成完整的深度图，因为在新轨迹中可见的内容可能在原始视角中被遮挡。因此，加入此类深度图无法促进4DGS模型的优化。更多详细信息将在4.3节中描述。混合训练的总体损失函数定义如下：

4. Experiment

4.1 与不同4DGS基线的比较

如表1所示，将DriveDreamer4D集成到不同的4DGS算法中，能够在多种复杂的驾驶操作（如变道、加速和减速）中持续提高NTA-IoU和NTL-IoU评分，显著优于基线方法。具体来说，DriveDreamer4D相较于三种基线方法（PVG 、S3Gaussian 、Deformable-GS ）的平均NTL-IoU得分分别提升了1.5%、3.5%和1.4%，这表明DriveDreamer4D显著增强了背景车道的时空一致性。此外，渲染动态前景对象在复杂驾驶场景中也面临很大挑战，但DriveDreamer4D使这些基线方法的平均NTA-IoU相对提升了20.3%、42.0%和13.7%，显著提高了驾驶场景中前景对象的时空一致性。

除了验证新轨迹视角下的渲染时空一致性外，我们还使用FID（Frechet Inception Distance）指标评估新轨迹下的渲染质量。由于加速和减速场景生成的视角与真实场景相似，限制了FID在不同算法间的判别能力，因此我们的FID比较重点集中在变道场景上。实验结果如表2所示，我们的方法相较于基线方法（PVG [8]、S3Gaussian [26]、Deformable-GS [69]）的FID分别提高了24.5%、39.0%和10.5%，这表明DriveDreamer4D显著提高了新轨迹视角下的生成质量。

最后，我们进行了用户研究，评估了不同方法在新轨迹下的渲染质量，特别关注前景对象。对于每种方法，我们在Waymo数据集的八个场景中生成了三种新轨迹视角——变道、加速和减速。参与者被要求选择他们在比较中认为视觉上更优的渲染。表3显示，DriveDreamer4D的胜率显著高于其他方法。

4.2 消融研究

我们基于PVG 进行了消融研究，以确定混合真实数据和生成数据的最佳比例 β。如表4所示，结果表明，增加生成数据的比例（β=0.2∼0.5）相比仅使用真实数据（β=0）显著提高了NTA-IoU和FID指标。为平衡FID和NTA-IoU指标，最终选择 β=0.4。此外，我们还进行了消融研究，以确定新轨迹视角训练损失权重
𝜆novel的最佳值。表5中的结果表明，在优化4DGS算法时引入新轨迹视角的损失有效提高了NTA-IoU和FID指标。综合考虑FID和NTA-IoU得分之间的平衡，𝜆novel设置为1。最后，如表6所示，实验证实在优化新轨迹视角时不应包括深度损失，因为LiDAR深度图由于遮挡而不完整。

结论

本文的主要贡献如下：

(1) 本文提出了DriveDreamer4D，这是第一个利用世界模型先验知识推进自动驾驶4D场景重建的框架。
(2) 提出了NTGM，自动生成多样化的结构化条件，使DriveDreamer4D能够生成复杂机动动作下的新轨迹视频。通过明确引入结构化条件，DriveDreamer4D确保了前景和背景元素的时空一致性。
(3) 本文通过全面的实验验证了DriveDreamer4D在新轨迹视角下显著提升了生成质量，以及驾驶场景元素的时空一致性。

文章引用：DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

查看全文

http://www.mrgr.cn/news/54954.html