当前位置: 首页 > news >正文

51c自动驾驶~合集49

我自己的原文哦~    https://blog.51cto.com/whaosoft/13164876

#Ultra-AV

轨迹预测新基准!清华开源:统一自动驾驶纵向轨迹数据集

自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。

本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。该数据集整合了来自14 个的数据,涵盖多种自动驾驶汽车类型、测试场景和实验环境。我们提出了一种数据处理框架,以获得高质量的纵向轨迹数据和跟驰轨迹数据。最后,本研究通过对安全性、通行效率、稳定性和可持续性等多个性能维度的评估,以及对跟驰模型变量之间关系的分析,验证了数据的有效性。我们的工作不仅为研究人员提供了标准化的数据和指标,用于分析自动驾驶汽车的纵向行为,还为数据采集和模型开发提供了指导方法**。

介绍

理解自动驾驶汽车的纵向驾驶行为对于确保其安全性和优化交通流至关重要。然而,现有的开源自动驾驶汽车轨迹数据集缺乏精细的数据清理和标准化,导致:

  • 数据质量不均,影响模型开发和性能评估。
  • 缺乏完整性和可靠性,难以进行跨数据集研究。
  • 分析效率低,影响AV安全测试和仿真研究。

本研究提出了一种统一的自动驾驶汽车纵向轨迹数据集(Ultra-AV),有以下特点:

  • 大规模数据集: 数据总量 2.6GB,涵盖 14 个不同的自动驾驶数据源,涉及 30 多种测试和实验场景,包含 超过 1000 万个数据点,相当于 280 小时以上的行驶数据
  • 标准化数据格式: 统一不同数据源的数据格式,使其适用于跨数据集研究
  • 数据处理框架: 提供一种高效的数据处理方法,提高数据的可用性,支持自动驾驶仿真测试行为建模

方法直观上而言,如果世界尺度减小,距离误差将相应降低。因此,如果在优化过程中没有引入尺度约束,那么最小化距离误差将最终导致世界尺度接近零,这在物理上是没有意义的。■ 4.3.  单帧标定生成的BEV图像覆盖了车辆周围25m×25m的范围。与基线相比,Click-Calib提供了相邻相机之间更好的对齐,从而证明了其高精度。    

如图所示,我们的统一数据集涵盖了14个不同来源的数据集。这些数据集收集自美国和欧洲的多个城市,确保了所选城市的多样性和代表性,使研究具备更广泛的适用性。类似于将3D点投影到2D图像像素的投影过程,相机的重投影过程被定义为逆操作,将2D图像像素映射回3D点。对于鱼眼相机,这涉及从计算:

此外,大多数被整合的数据集都包含自动驾驶汽车的长时间轨迹,这些数据广泛应用于自动驾驶行为分析。然而,一些特定数据集,如 Waymo Open Dataset中的 Waymo Motion Dataset 和Argoverse 2 Motion Forecasting Dataset,其轨迹时间较短,分别为9.1 秒和11 秒(采样频率为 10Hz)。这些数据集主要用于Motion Forecasting领域的研究,尽管轨迹较短,但其采集地点通常位于复杂交通环境中的市区,能够提供在复杂场景下分析自动驾驶行为的机会。因此,本研究特别包含了对这两个数据集的分析,以确保数据集的全面性和适用性。

本研究提出了一种数据处理框架,用于标准化并清理自动驾驶汽车轨迹数据。该框架包含以下三步。一些定性结果如图8所示。地面点高度的噪声仅在标定中引入微小差异。这些差异可以认为是Click-Calib的标定误差的近似上限,这是因为误差的主要来源是地面点的高度。有趣的是,斜坡情况下的MDE甚至比无噪声情况下更小。本文认为,这是因为假设的斜坡与实际斜坡部分符合所导致的。

Step 1: 轨迹数据提取
从多个AV数据集中提取统一格式的纵向轨迹数据,包括汽车位置、速度、车头时距等关键变量。关键变量如下:

变量

描述

Trajectory ID

轨迹数据的唯一标识

Time Index

轨迹数据时间索引

LV Position

领航车(LV)位置

LV Speed

领航车速度

FAV Position

跟驰车(FAV)位置

FAV Speed

跟驰车速度

Space Headway

车头间距

Speed Difference

车速差

针对处理过后的数据,我们通过三个方面对数据进行验证分析。

Step 2: 通用数据清理
为了提高数据的可靠性,采用以下清理策略:

  • 移除异常值: 删除超过 均值 ± 标准差 的数据点。
  • 缺失值填补: 删除时间戳不连续的数据点,并采用线性插值补全缺失数据。
  • 轨迹数据重构: 重新整理数据结构,确保数据的可解释性。

Step 3: 数据特定清理
针对车队跟驰场景,设定阈值去除异常数据,以提高分析准确性。下图展示了处理后的数据分布。其中分别代表车头间距,车速,车速差,和加速度。

数据采集这种局限性主要有两个原因:首先,对于基于模式的方法,距离受限于模式的物理尺寸以及标定空间;其次,对于基于光度的方法,由于合成BEV图像的质量在较远距离处急剧降低,因此标定范围也受到限制。

结合作者所在课题组的数据方案和文献,我们认为目前自动驾驶汽车的数据采集通常来自多种高精度传感器的数据整合,包括LiDAR(激光雷达),*GPS(全球定位系统),DSRC(车载通信单元),高清摄像头等。图中显示了作者课题组基于Lincoln MKZ的自动驾驶汽车测试平台。当车辆静止或者低速(小于30km/h)行驶时,可以应用该方法。用户无需进行任何特殊设置,仅需要在相邻相机的重叠区域中选择地面上的一些关键点。Click-Calib的标定结果在短距离和远距离(大于10米)均能维持高精度,这使其非常适用于远距离3D感知任务。

关键性能指标尽管当前的离线外参标定方法能够在车辆周围的目标区域提供精确的标定,但是这些区域大多在短距离范围内(通常小于5米,如图3所示)。

为评估自动驾驶汽车的性能,我们采用以下性能指标:

  • 安全性指标: Time-to-Collision ()。
  • 稳定性指标: 加速度变化率()。
  • 可持续性指标: 燃油消耗()。
  • 通行效率指标: 车头时距()。

分析结果如图所示。对于所有三辆汽车,本文提出的方法在MDE指标上均超越了基线。在较短的距离处(即靠近自车的区域),基线和Click-Calib均精确。然而,在更远的距离处(特别是超过10米),Click-Calib的标定结果明显优于基线。这是因为Click-Calib允许用户选择远距离的关键点(只要它们在相邻相机中可见,如图7所示),这在求解标定时引入了更多的几何约束。  

图片

跟驰模型开发

最后,为了分析自动驾驶汽车的纵向行为,本研究探讨了加速度与输入变量(车头间距、车速和车速差)之间的关系。下图绘制了这些变量之间的散点图,其中y轴是加速度,绿/黄/橙色图片的横轴分别代表车头间距,车速,以及车速差。可以看出,车头间距和车速差对加速度的影响显著,而加速度与车速之间无明显线性关系。其中,加速度与车头间距呈非线性正相关,与车速差呈线性负相关。

图片

结论

本研究回顾了多个自动驾驶轨迹数据集,并开发了统一自动驾驶纵向轨迹数据集,主要贡献包括:

  1. 标准化纵向轨迹数据集 - 统一并清理不同数据源的数据,提高数据可用性。
  2. 高质量的跟驰数据集 - 通过去噪和数据清理,保证数据分析的准确性。
  3. 跟驰行为分析 - 研究加速度与输入变量之间的非线性关系

本文的连接和相关代码、数据可以在以下链接里找到:

  1. Ultra-AV 数据集论文 - Scientific Data
  2. GitHub 代码仓库 - Ultra-AV Dataset

#三维场景问答最新综述

三维场景问答(3D SQA)是一项跨学科任务,它融合了三维视觉感知和自然语言处理,使智能体能够理解并与复杂的三维环境进行交互。大型多模态建模领域的最新进展推动了多种数据集的创建,并促进了3D SQA指令调优和零样本方法的发展。然而,这一快速进展也带来了挑战,尤其是在实现跨数据集和基线模型的统一分析和比较方面。这里首次对3D SQA进行了全面综述,系统地回顾了数据集、方法和评估指标,同时强调了数据集标准化、多模态融合和任务设计方面的关键挑战和未来机遇。

领域发展介绍

视觉问答(VQA)通过融入视觉内容,扩展了传统基于文本的问答系统范围,能够解释图像、图表和文档,以提供情境感知的回复。这一能力促进了更广泛的应用,包括医疗诊断、财务分析以及学术研究辅助。然而,随着对沉浸式三维环境需求的不断增长,对更加自然和交互式的问答系统的需求也日益迫切。三维场景问答(3D SQA)通过连接三维环境中的视觉感知、空间推理和语言理解,解决了这一问题,见图1。

与传统侧重于物体检测或分割的三维任务不同,3D SQA整合了多模态数据,例如视觉输入和文本查询,使系统能够进行复杂推理。通过利用动态三维环境中的空间关系、物体交互和层次场景结构,3D SQA推动了机器人技术、增强现实和自主导航的发展,拓展了多模态人工智能的边界及其在复杂现实世界场景中的潜力。

3D SQA的早期发展依赖于手动标注的数据集,如ScanQA和SQA,这些数据集将三维点云与文本查询进行了对齐。最近,程序化生成方法,如3DVQA和MSQA中使用的方法,已能够创建具有更丰富问题类型的大型数据集。大型视觉-语言模型(LVLMs)的整合进一步自动化了数据标注,推动了更全面的数据集的开发,如LEO和Spartun3D。

随着数据集的发展,方法论也随之演进,从封闭集方法转变为低资源视觉语言模型(LVLM)支持的技术。早期方法采用了自定义架构,结合了点云编码器和文本编码器,以及基于注意力的融合模块。然而,这些方法受到预定义答案集的限制。最近的基于LVLM的方法在适应如GPT-4等模型时,采用了指令调优或零样本技术,从而减少了对特定任务标注的依赖。然而,这些方法在确保数据集质量和解决评估不一致性方面也面临着挑战。

为了分析三维场景问答(3D SQA)中出现的新挑战,并促进这些挑战的系统性处理,我们首次对这一研究方向进行了全面综述。重点关注了该领域的三个基本方面,即:(i)3D SQA的目标,(ii)支持这些目标所需的数据集,以及(iii)为实现这些目标而开发的模型。我们回顾了数据集和方法论的演变,突出了文献中的趋势,如从手动标注向LVLM辅助生成的转变,以及从封闭集方法向零样本方法的演进。此外还讨论了多模态对齐和评估标准化方面的挑战,为该领域的未来发展方向提供了见解。​

预备知识

3D场景问答(3D SQA)任务涉及理解一个3D场景S和一个查询Q,以生成文本答案T,并可选地生成空间信息B,如相关物体的边界框。3D场景可以使用点云、多视图图像或其组合等方式来表示,而查询可能包括文本输入、以自车为中心的图像或物体级别的点云。该任务被正式定义为F:(S,Q) → (T,B),它融合了多模态推理和空间理解,以进行全面的3D场景分析。​

Datasets

3D场景问答(3D SQA)中数据集的重要性再怎么强调也不为过。现有数据集在场景表示、规模和查询复杂性方面存在很大差异。为了系统地概述现有数据集,这里分为两个主要部分:数据集结构,探讨场景和查询的表示及规模;以及问答对创建,研究生成问答对的方法论。

1)数据结构

在3D场景问答(3D SQA)这一数据驱动领域,数据集的结构对其所支持的任务范围有着显著影响。当前的数据集在3D场景的表示上存在巨大差异,包括点云、多视图图像和以自我为中心的视角等,同时其查询格式也从基本的文本输入到复杂的多模态、具体化描述不等。数据集的关键属性,如规模、模态多样性以及查询复杂性,对3D SQA模型的设计要求和性能能力有着重要影响。表2总结了现有真实世界3D SQA数据集的关键特征,概述了它们的场景表示、查询模态和规模。在图2中,我们以更高级的抽象层次展示了典型的数据集生成工作流程。

场景模态与规模

3D场景问答(3D SQA)数据集的发展经历了从合成环境到真实3D表示的时间线演变。合成3D数据集:3D SQA的发展始于利用合成环境模拟场景级问答任务的伪3D数据集。例如,EmbodiedQA通过在House3D模拟器中选择SUNCG子集的真实场景来生成数据集。这些数据集经过人工标注者的验证以确保质量。IQA通过引入IQUAD V1数据集扩大了这一努力,该数据集包含75,000个问题,每个问题都与独特的场景配置相匹配,利用了AI2-THOR环境。MP3D-EQA和MT-EQA分别进一步纳入了深度图和多目标问答任务,但仍局限于合成SUNCG场景。

点云数据集:基于3D点云的数据集的引入标志着向现实世界3D场景问答(3D SQA)任务的转变。ScanQA和SQA为这一方向奠定了基准。这两个数据集都是使用ScanNet构建的,其中ScanQA在800个场景中生成了41,000个问答对,而SQA提供了6,000个经过人工精心挑选、语言准确性更高的问答对。在这些工作的基础上,FE-3DGQA从ScanNet中选择了703个特定场景并标注了20,000个问答对,强调带有密集边界框标注的基础问答任务,以实现空间定位。CLEVR3D利用功能程序和文本模板生成了ScanQA中问题数量四倍的问题,引入了更广泛的属性和问题类型。随后,3DVQA在CLEVR3D框架的基础上进行了扩展,利用3D语义场景图和基于模板的管道来生成问题和答案。通过选择707个场景,3DVQA生成了500,000个问答对,极大地丰富了任务的多样性和复杂性。同样地,SQA3D在650个场景中精心挑选并标注了33,400个问答对,专注于将查询与agent的位置和方向相关联。

多视图数据集:为了更好地与人类感知相契合,引入了多视图数据集,该数据集侧重于从不同视角进行推理,而不仅仅依赖于单一的点云表示。在这一方向上,3DMVVQA包含了来自HM3D数据集的5,000个场景,并生成了50,000个问答对。这些图像是使用Habitat框架渲染的,强调了多视图推理。另一方面,OpenEQA不仅从HM3D中选择了场景,还结合了Gibson和ScanNet数据集,最终选择了180个高质量场景,包含1,600个问答对。与其他数据集不同,它优先考虑质量而非规模,为高质量3D问答基准做出了重要贡献。

多模态数据集:近年来,3D场景问答(3D SQA)数据集的发展强调了点云、图像和文本数据的融合,以形成丰富的多模态表示。这些方法旨在捕捉空间、语义和上下文线索,以实现更全面的场景理解。一个值得注意的例子是Spartun3D,它从3RScan中选择了场景,并生成了123,000个专注于情境任务的问答对。同样,MSQA从多模态数据集中构建了254,000个问答对,使用点云和对象图像作为输入,以更好地与现实世界的智能场景相契合。

随着大型语言模型(LLMs)的普及,指令调优数据集也作为多模态数据集的一个重要扩展而出现,它通过将3D数据与文本描述相结合,增强了3D场景问答(3D SQA)模型的泛化能力。例如,ScanScribe收集了ScanNet和3R-Scan中的室内场景的RGB-D扫描数据,并整合了来自Objaverse的多样化物体实例。它使用了ScanQA中的问答对以及ScanRefer和ReferIt3D中的指代表达式,通过模板和GPT3从2,995个场景中生成了56,100个物体实例。同样地,LEO通过收集对象级、对象在场景中级和场景级的描述,构建了83,000个3D-文本对。

沿着相似的思路,M3DBench利用多个现有的大型语言模型生成了320,000个指令-响应对,为广泛的3D-语言任务丰富了多模态3D数据。3D-LLM使用Objaverse、ScanNet和HM3D等资源创建了超过300,000个3D-文本对,而LAMM则采用GPT-API和自我指令方法生成了186,000个语言-图像对和10,000个语言-3D对。

查询模态与复杂性

在3D场景问答(3D SQA)中,查询代表输入的问题或提示,当与3D场景配对时,它指导提供答案的任务。随着时间的推移,3D SQA中的查询模态已经从简单的基于文本的输入演变为更复杂、多模态和以agent为中心的格式。在此,我们从查询模态的角度对数据集进行总结,这是性能评估中数据集选择的关键考虑因素。

基本文本查询:早期的3D SQA数据集主要采用直接的基于文本的查询,这些查询侧重于场景级别的属性,如物体计数或识别。这些数据集旨在评估基础的3D场景理解能力,通常不考虑agent在环境中的位置、交互或视角。例如,ScanQA和SQA等数据集包含诸如“房间里有多少把椅子?”之类的问题。这些纯文本问题由于缺乏对agent与场景之间的空间或上下文关系的描述,无法捕捉复杂的场景。因此,这些数据集的范围有限,如表2所示,其中缺乏适合的查询表明它们省略了以agent为中心的上下文。这一局限性凸显了后来3D SQA研究向更丰富、更具上下文化的数据集发展的趋势。

以agent为中心的文本查询:引入以agent为中心的描述标志着查询复杂性的重大转变。SQA3D是最早纳入情境化问题的数据集之一,其中文本查询通过引用agent的位置或方向得到了增强。在这种情况下,一个典型的查询可能会描述agent的位置,如“坐在床边,面向沙发”。在表2中将能够执行此类查询的数据集标记为“适合”。

多模态以agent为中心的查询:最近,SPARTUN3D和MSQA引入了更丰富的空间描述和多模态查询输入。前者提供了详细的空间信息,使得可以执行如“你站在垃圾桶旁边,前面有一个厕所”之类的查询。同样,MSQA在查询中整合了文本描述、明确的空间坐标和agent方向。此外,还包括第一人称视角的图像。这些多模态方法通过结合空间、视觉和语言上下文,实现了更逼真的场景。

指令调优查询:最近的数据集,如ScanScribe、LEO和M3DBench,也进一步扩展了查询模态,以支持指令调优任务。它们利用以agent为中心的查询,并结合多模态输入,如基于空间位置的文本描述和多模态指令。例如,LEO纳入了多模态指令来微调模型,以执行如实时导航或物体交互等agent任务。M3DBench则通过利用丰富的多模态数据,专注于跨多种现实世界任务的泛化。这些指令调优数据集通过将文本指令与空间和视觉上下文相结合,确保模型能够很好地解决实际的现实世界任务。

2)问答对创建

问答对(QA对)的创建定义了3D场景问答(3D SQA)任务的范围和复杂性。早期数据集依赖于人工标注,而最近的研究工作则采用了模板和大型视觉语言模型(LVLMs)来提高可扩展性和多样性。这些进展使得数据集能够包含更广泛的问题类型,从物体识别到空间关系到任务特定查询。

问答对生成方法

在3D场景问答(3D SQA)数据集中,问答对(QA对)的生成需要在人工标注、基于模板的流程和大型语言模型(LLM)辅助方法之间取得平衡。人工标注确保了高质量和上下文准确性,而基于模板的方法则能够实现具有逻辑一致性的可扩展生成。最近,大型语言模型进一步自动化了这一过程,使得能够大规模生成多样化的多模态QA对。这一进展在图2中也显而易见,反映了数据集创建技术的演变。

基于模板的生成:基于模板的生成方法是早期为实现可扩展问答对(QA对)创建而引入的一种解决方案。ScanQA通过利用基于T5的QA生成模型从ScanRefer中生成种子问题,展示了这种方法。同样,CLEVR3D、3DVQA和3DMV-VQA等数据集利用3D语义场景图以编程方式生成多样且逻辑一致的问答对,从而提高了可扩展性和任务多样性。虽然基于模板的方法能够生成大规模数据集,但生成的问题往往缺乏上下文特异性,有时可能导致过于泛化的查询。

手动标注:研究人员还采用了手动标注的方法来解决基于模板方法的局限性。手动方法注重语言精确度和上下文相关性,创建的数据集规模较小但质量更高。例如,SQA精心挑选了6000个问答对,重点强调语言准确性;而FE-3DGQA则从ScanNet中选取了703个场景并标注了20000个问答对,同时通过边界框标注来确定答案。同样,OpenEQA从180个高质量场景中精选了1600个问答对。SQA3D在650个场景中贡献了33400个问答对,专门针对以agent为中心的任务。尽管手动标注耗时较长,但经过精心策划的数据集在确保准确性和上下文一致性方面发挥着关键作用,是对基于模板方法的补充。

大型语言模型辅助生成:最近的方法越来越多地利用大型语言模型(LLMs)来自动化生成问答对,从而提高了可扩展性和多样性。值得注意的例子包括Spartun3D和MSQA,它们都利用场景图来结构化空间和语义关系。Spartun3D采用GPT-3.5生成以agent为中心的问题,强调情境推理和探索,最终生成了123000个问答对。MSQA则采用类似的方法,使用GPT-4V,侧重于由语义场景图指导的情境问答生成,产生了254000个问答对。

此外,大型语言模型(LLMs)在构建指令调优数据集方面发挥了关键作用,这些数据集有助于提高模型在多种多模态任务上的泛化能力。ScanScribe利用GPT-3将ScanRefer的标注通过基于模板的细化转化为场景描述。LEO采用GPT-4并结合以对象为中心的思维链(O-CoT)提示,以确保逻辑一致性。M3DBench和3D-LLM则使用GPT-4根据对象属性和场景级输入创建多模态提示。这些数据集共同展示了大型语言模型在自动化生成高质量、多模态3D场景问答(3D SQA)数据方面日益增长的作用。

3D场景问答中的问题设计

随着语言和视觉建模的发展,3D场景问答(3D SQA)中的问题已经从多个维度上得到了演变:从简单任务到复杂任务,从非情境化语境到情境化语境,以及从静态场景到动态场景。为了举例说明这些问题的性质,我们在附录中的表A中列出了常见的3D SQA任务和代表性问题。

任务复杂性—从基础到高级

3D SQA涵盖了多种问题任务,旨在评估模型对3D环境的理解能力和推理能力。基础任务,如对象识别、空间推理、属性查询、对象计数和属性比较,在诸如SQA、ScanQA、FE-3DGQA、3DVQA和CLEVR3D等数据集中都有体现。其中,FE-3DGQA引入了更复杂、更自由形式的问题,这些问题要求模型不仅要定位与答案相关的对象,还要识别它们之间的上下文关系。同样,CLEVR3D通过纳入整合了对象、属性及其相互关系的问题,强调了关系推理,从而进一步推动模型处理复杂的上下文依赖关系。

随着3D场景问答(3D SQA)的发展,出现了要求更深入理解空间和视觉上下文的任务,这些任务挑战模型进行动态和情境感知推理。这些任务包括多跳推理(如SQA3D)、导航(如SQA3D、LEO、3D-LLM、M3DBench、MSQA)、机器人操作(如LEO)、对象功能(如Spartun3D)、功能推理(如OpenEQA)、多轮对话(如LEO、M3DBench、3D-LLM)、规划(如LEO、M3DBench、Spartun3D)和任务分解(如3D-LLM)。这些高级任务挑战模型在捕捉复杂空间和关系细节的同时,动态推理并导航复杂的3D环境。值得注意的是,OpenEQA作为首个用于问答的开放词汇数据集而脱颖而出。

情境化与非情境化问题:根据所需的交互水平和情境理解程度,3D视觉问答(VQA)问题可分为情境化和非情境化类型。后者侧重于静态推理,测试模型在固定3D场景中解释空间关系、属性和对象属性的能力。像SQA、ScanQA、FE-3DGQA、3DVQA、CLEVR3D和LAMM这样的数据集主要包含评估静态空间上下文中理解能力的非情境化问题。相反,情境化问题涉及动态推理,需要与3D环境进行交互并理解上下文或顺序信息。这些问题测试模型导航、规划和适应动态场景的能力,并且通常包含时间或元素。情境化问题出现在如SQA3D、LEO、3D-LLM、M3DBench、MSQA、Spartun3D、3DMVVQA和OpenEQA等数据集中。这种分类有助于对3D VQA系统进行全面评估。

3)评估LLM生成的3D数据集

尽管大型语言模型(LLM)的应用极大地推动了3D场景问答(3D SQA)数据集的发展,但确保其质量、可靠性和实用性仍然是一个亟待解决的挑战。当前的评估方法主要依赖于人工评估。例如,LEO通过专家评审来评估问答对,报告了包括整体准确率和上下文相关性等指标。MSQA采用比较方法,从其数据集中抽样问答对,并与基准数据集(如SQA3D)进行对比,根据上下文准确性、事实正确性和整体质量进行评分。同样,Spartun3D通过随机抽样实例进行专家验证,以确保生成的数据符合预期的质量标准。这些人工评估为数据集质量提供了有价值的见解,但在可扩展性、劳动强度和主观性方面存在局限。

为了解决这些局限,目前需要自动化评估框架。潜在的解决方案包括用于语义对齐的嵌入式指标、用于问答连贯性的逻辑一致性检查,以及用于空间准确性和多模态集成的特定任务指标。​

评估指标

标准化的评估指标对于衡量3D场景问答(3D SQA)的进步和确保数据集适用于下游任务至关重要。当前的3D SQA文献在评估时要么使用传统指标,要么使用基于大型语言模型(LLM)的指标。

传统指标:3D SQA方法通常采用语言相关性和正确性的定量指标进行评估。常用的指标包括精确匹配(Exact Match,如EM@1、EM@10),它评估生成的答案是否与真实答案完全匹配,以及语言生成指标,如BLEU、ROUGE-L、METEOR、CIDEr和SPICE。这些指标最初由ScanQA采用,并自此被用于CLEVR3D、3DGQA和ScanScribe等数据集。虽然这些传统指标在评估语言准确性和多样性方面很有效,但它们在捕捉3D SQA任务所需的细致推理和上下文理解方面通常存在局限性。

基于LLM的指标:3D场景问答(3D SQA)中新兴的评价范式采用基于LLM(大型语言模型)的指标,利用如GPT等模型的推理能力。例如,OpenEQA利用GPT来评估生成答案的上下文相关性和正确性,并引入了一个最终计算平均相关性分数的指标。同样,MSQA也使用GPT来基于细致推理评估答案的质量,使其与上下文期望保持一致。与传统指标相比,基于LLM的方法在模拟现实世界推理和捕捉语义微妙之处方面目前表现优异,对于评估复杂的多模态任务特别有价值。

综上所述,传统指标为评估语言和结构质量提供了坚实的基础,而基于LLM的指标则提供了对上下文对齐和推理的更深入见解。结合这些指标的互补特性,可以为评估3D SQA性能提供一个全面的框架。​

3D场景问答(3D SQA)方法的分类

3D场景问答(3D SQA)方法可以分为三类,如表3所示。i) 任务特定方法依赖于预定义的答案和专门设计的架构来解决特定任务。ii) 基于预训练的方法利用大规模数据集来对齐多模态表示,并针对特定任务目标进行微调。iii) 零样本学习方法同样利用预训练的大型语言模型(LLM)和视觉语言模型(VLM)来泛化到新任务,尽管没有额外的微调。这些类别支撑了3D SQA领域从任务特定方法向可扩展方法的演进,这些方法利用了先进多模态模型的能力,反映了3D SQA系统对灵活性和适应性的日益重视。

1)Task-Specific Methods

这些方法采用封闭集分类方法为特定任务而设计。

点云方法:针对点云的3D场景问答(3D SQA)方法遵循一个模块化的流程,包括场景和查询编码、特征融合以及答案预测。早期的方法,如ScanQA,采用VoteNet和PointNet++来提取空间特征,而文本查询则使用GloVe和BiLSTM进行编码。融合则是通过基于Transformer的模块实现的。在此基础上,后来的方法引入了更复杂的编码器和融合策略。例如,3DQA-TR用Group-Free替换了VoteNet以实现更细粒度的场景编码,并采用BERT进行查询编码。融合过程通过直接通过文本到3D的Transformer整合特征来进一步简化,从而实现更直接的问题到答案的映射。同样,TransVQA3D通过引入用于融合的SGAA来增强特征交互,重点关注场景中的全局和局部语义。对于需要空间定位的数据集,FE3DGQA通过使用PointNet++进行空间特征提取和使用T5进行文本编码来改进流程,同时辅以注意力机制来使文本与密集空间注释对齐。最近提出的SIG3D专注于智能中的上下文感知任务。它使用基于体素的标记化对场景进行编码,并采用基于锚点的上下文估计来确定agent的位置和方向。

多视图和2D-3D方法:还有一些方法使用多视图图像来增强3D场景问答(3D SQA)的性能。例如,3D-CLR通过利用多视图图像并优化3D体素网格来构建紧凑的3D场景表示。另一方面,像BridgeQA这样的2D-3D方法结合了来自预训练视觉语言模型(VLMs)的2D图像特征与通过VoteNet获得的3D对象级特征。这两种特征类型都与VLM的文本编码器编码的文本特征对齐,并通过视觉语言Transformer进行融合,从而实现自由形式的答案。

2)基于预训练的方法

3D场景问答(3D SQA)中的基于预训练的方法已经从强调空间嵌入和文本嵌入显式对齐的传统方法,转变为利用大型预训练模型的指令调优范式。这些方法在任务特定适应性和泛化能力之间取得了平衡,以应对可扩展性的挑战。

传统预训练方法:这些方法侧重于将3D空间特征与丰富的2D视觉和语言表示对齐。Parelli等人利用基于VoteNet的可训练3D场景编码器提取对象级特征,并使用Transformer层进一步细化这些特征,以建模对象间的关系。Multi-CLIP引入了多视图渲染和鲁棒的对比学习,以增强3D空间特征与2D表示的结合。Zhang等人在预训练期间引入了对象级交叉对比学习和自对比学习任务,以提高跨模态对齐。Jia等人采用分层对比对齐策略,结合对象级、场景级和指代嵌入,以增强跨模态和模态内特征的融合。

与这些对比学习方法不同,3D-VisTA采用基于Transformer的统一框架来对齐3D场景特征与文本表示。它不依赖于大量的标注,而是利用自监督目标来优化多模态对齐。从任务特定的预训练转向自监督学习,是高效且稳健的3D SQA的一个值得注意的发展。

指令调优方法:预训练的基础模型以高昂的计算成本从大规模无监督数据中学习通用的几何和语义表示。指令调优方法通过利用预训练的大型语言模型(LLMs)或视觉语言模型(VLMs)作为冻结的编码器,来利用这些模型的泛化能力。这些方法保留了编码器的参数,仅进行最小程度的修改,通常是通过轻量级的任务特定层,以适应下游任务。最近的方法,如LM4Vision、3D-LLM、LEO、M3DBench和LAMM,都体现了这一转变。

LM4Vision采用冻结的LLaMA编码器,并训练轻量级的任务特定层,以与3D问答任务对齐。同样,3D-LLM在BLIP2的基础上构建,同时添加了一个任务特定的头,而保持基础模型冻结。相比之下,LEO、M3DBench和LAMM利用LLaMA的衍生模型Vicuna来整合文本和多模态输入。LEO结合了以对象为中心和场景级别的字幕,以增强多模态推理。通过利用LLMs或VLMs中编码的广泛知识,这些方法避免了需要大量任务特定预训练数据集的需求。此外,指令调优方法在零样本和少样本场景下也有效。

3)零样本学习方法

零样本学习已成为3D场景问答(3D SQA)领域一种有前景的学习范式,它使模型能够在不进行任务特定微调的情况下推断出未见任务的答案。当前的零样本3D SQA方法大致可分为:文本驱动方法、图像驱动方法和多模态对齐方法。

文本驱动方法:这些方法将3D场景信息转换为文本描述,然后将其与问题一起用于预训练的大型语言模型(LLMs)或视觉语言模型(VLMs)中进行零样本推理。例如,SQA3D使用Scan2Cap生成场景描述,并将其输入GPT-3以回答问题。然而,这种方法忽略了点云和图像的空间结构,限制了其充分利用3D信息的能力。同样,LAMM从点云和文本中提取特征,但对3D数据的使用方式有限。

图像驱动方法:这些方法使用VLMs结合图像或多视图数据等视觉特征以及文本。例如,MSQA使用GPT-4o与VLMs。Singh等人在3D-VQA和ScanQA等数据集上测试了未经微调的GPT-4V,在某些任务中表现出了具有竞争力的性能。这些方法灵活且资源高效,但它们仍然依赖于文本来表示空间和对象关系,这可能是一个潜在的局限性。

多模态对齐方法:诸如LEO和Spartun3D-LLM等技术,在预训练过程中明确地对齐视觉和文本信息。LEO通过对齐对象和场景级别的特征来提高零样本性能,而Spartun3D-LLM则使用一个明确的模块来对齐点云和文本。由于需要额外的计算,这些方法需要相对更多的训练资源。然而,它们在性能和效率之间提供了一个有吸引力的权衡。总体而言,在当代零样本3D场景问答(3D SQA)中,文本驱动方法成本效益高且灵活,但对3D数据的利用有限。图像驱动方法直接利用视觉语言模型(VLMs)进行推理,但由于对3D信息的利用不足,也面临局限性。多模态对齐方法虽然性能优越,但资源需求更高。​

挑战与未来方向

尽管3D场景问答(3D SQA)已经取得了显著进展,但仍存在若干关键挑战,限制了其在现实世界应用中的潜力。我们概述了主要挑战,并提出了未来研究的方向。

数据集质量与标准化。近年来,3D SQA数据集发展迅速,导致数据集领域分散,范围和模态差异巨大。将这些数据集整合为统一的基准测试集,可以为该领域的研究提供急需的标准化评估,从而推动研究的发展。此外,虽然大型语言模型(LLMs)促进了可扩展的数据集生成,但它们往往会引入虚假信息和上下文不一致。未来的研究应聚焦于稳健的验证框架,利用人类参与的系统或LLMs作为验证器。

增强零样本中的3D感知。当前的零样本模型严重依赖于文本agent,对3D空间和几何特征的利用有限。尽管多视图方法在一定程度上缓解了这一问题,但缺乏明确的3D表示阻碍了它们在空间复杂任务中的有效性。指令调整方法也面临类似的限制。未来的工作需要探索能够深度整合3D特征、语言模态和视觉模态的架构,以增强在不同任务上的泛化能力。此外,未来研究的一个明显方向是探索在零样本3D SQA中多模态对齐与预训练模型之间的平衡,以提高效率和性能。

统一评估。目前,缺乏标准化和针对3D场景问答(3D SQA)目标的特定评估指标,这使得跨数据集和模型的有意义评估和比较变得复杂。为了进行准确的基准测试和推动3D SQA的方法创新,目前需要开发统一的框架,这些框架应包含用于空间推理、上下文准确性和任务特定性能的多模态指标。

动态和开放世界场景。大多数现有的方法和数据集都集中在静态、预定义的环境上,这限制了它们在现实世界任务中的应用。未来的工作应更多地关注动态、开放世界的设置,使模型能够处理实时场景变化和新颖查询。将实体交互(如导航和多步推理)纳入其中,将进一步使3D SQA系统符合现实世界的要求。

可解释和可阐释的3D SQA模型。当前的3D SQA模型通常充当“黑箱”,这限制了它们在医疗等信任关键领域的采用。开发能够可视化3D特征、突出相关区域或提供自然语言解释的可解释模型,可以增强用户信任并拓宽其应用范围。

多模态交互与协作。3D SQA系统正朝着更自然和交互式的界面发展。未来的研究可以探索整合语言、手势和视觉输入,以实现与3D场景的直观交互。此外,多个用户实时与系统交互的协作场景(如建筑设计或教育培训)提供了一个有前景的方向。这样的系统可以增强沟通和联合解决问题的能力,为3D SQA解锁更广泛的应用。

融入时间动态。大多数当前的3D SQA模型忽略了场景的时间动态,而大多数现实世界应用(如交通监控、机器人导航)都涉及动态环境。未来的研究应旨在将时间动态融入3D SQA,使模型能够随时间推理场景变化。利用时间信息(如物体移动)将使这些系统能够更好地处理需要长期时间推理的任务。

模型效率与部署。将3D场景问答(3D SQA)系统部署到资源受限的设备上(如移动机器人和边缘人工智能agent)仍然具有挑战性,因为这些系统对计算和内存的需求很高。未来的工作应聚焦于轻量级架构和优化技术,包括剪枝、量化和知识蒸馏,以实现高效且实时的推理。针对嵌入式系统量身定制的节能算法和可扩展设计将进一步提升3D SQA在现实世界应用中的实用性。通过解决这些挑战,3D SQA可以朝着构建健壮、可扩展和多功能系统的方向迈进,推动实体智能和多模态推理领域取得重大进展。

#吉利率先宣布DeepSeek上车

知道DeepSeek这把“火”迟早点燃车圈,但没想到这么快。

1月20号刚刚发布的大模型R1,就是让全世界尤其是海外“震惊”的那一版,现在已经官宣上车

更没想到,车圈率先拥抱国产顶尖大模型能力的,是它。

谁上车了DeepSeek大模型?

率先上车DeepSeek大模型的是它杭州老乡——吉利汽车

给用户的体验升级,目前集中在人车交互层面。

后续吉利智能汽车AI不仅能对用户的模糊意图实现精准理解,进而准确调用约2000个车载接口,还能基于车内外场景主动分析用户潜在需求,并为用户主动提供车辆控制、主动对话、售后等等服务。

例如自动调整座椅、提醒车辆保养、拥堵时推荐绕行路线,或根据用户日程提前规划充电等等。

可以理解为对吉利原有的交互模型一次全面的升级彻底打通了车机UI、交互助手与数千种汽车原子化功能的壁垒,“可见即可说”不再限定在某些特定领域,扩展到全车智能。

据透露,吉利主要使用了知识蒸馏手段,​​智能车参考之前详细科普过​​,主要通过让一个较小的模型学习较大模型的预测分布来获得类似的表现。出现个别的能力不足和输出异常,可以补充有限数据使用强化学习的方案调整。

吉利具体怎么做的没细说,不过可以推测应该是将617B参数的R1大模型,基于星睿自身的车控FunctionCall大模型、主动交互端侧大模型等核心组件进行蒸馏,将R1大模型训练成适应智能汽车交互场景,并且能在车端跑起来的状态,之后在融合进吉利自己的技术体系里。

之所以能这么操作,离不开R1大模型本身的技术特征。

与之前常见的大语言模型不同,R1显著的特征有两个,一是多模态能力更强,二是训练成本更低

前者来自R1的架构级创新,包括Multi-Head Latent Attention(MLA)、DeepSeekMoE和Multi-Token Prediction(MTP)。

MLA解决长序列处理的效率问题,将过程中的键和值压缩成低秩的潜在向量,显著降低了推理过程中的内存占用。这种机制使得DeepSeek-V3能够处理如整本书或高分辨率图像这样的长序列,同时保持较低的计算开销。

MoE模型通过将任务分配给不同的“专家”来处理,即在处理每个 token 时,仅有部分参数被激活,这使得模型能够聚焦于一小部分经过高度训练的专家模块,从而快速且精准地给出答案。

MTP的意思是多token预测目标,即在每个步骤中预测多个未来的token。这种方法增强了模型的文本生成能力,特别是在长文本生成任务中,能够生成更加连贯和上下文丰富的文本。

后者来自训练过程中的创新,比如FP8混合精度训练、DualPipe管道并行性和跨节点全对全通信内核等优化技术,实现了高训练效率。完整训练需要278.8万个H800 GPU小时,成本约为557.6万美元,仅为传统大模型数十分之一。

R1发布两周左右就落地上车,核心依然离不开它强大的多模态能力,以及低廉链接的训练方式、成本。

实际上R1相比以往任何基础大模型,都更容易被应用到千行百业的具体场景中。

而应用在智能汽车上,上车方式不是简单在吉利的车机上安装一个DeepSeek应用,背后DeepSeek给吉利的技术支持,不再仅仅局限于授权一个API,而是把震惊全世界的R1大模型能力,融合进吉利自己的技术体系。

车企没有AI能力,接不住DeepSeek

何小鹏是第一个公开谈论DeepSeek的车企老板,昨天刚刚在内部开工信中承认DeepSeek在AI领域取得了显著成就,并预测AI将在未来十年驱动汽车行业产生巨大变革。

随着吉利的新进展,后续DeepSeek毫无疑问会迎来一波上车热潮,各家争先恐后官宣。

DeepSeek大概率会成为类似华为ADS、高通8295、英伟达Orin一样的旗帜图腾,深深烙印在用户思维中,成为智能车的核心产品力和卖点之一

不过和这些具体的产品功能相比,DeepSeek对于整个智能汽车产业影响可能更深远。

吉利与DeepSeek的合作方式,是将R1模型的知识能力蒸馏融合进自研模型。实际上这也是目前DeepSeek在千行百业落地的模式。

因为DeepSeek率先实现了高性能低成本、泛化能力好又方便部署的大模型,不必(或者说当下也没条件)分出团队针对某种应用场景专门研发模型。

所以作为车企,没自己的东西,还真接不住DeepSeek:必须具有大模型基础能力和产品,以及综合研发、维护、迭代的体系化AI能力。

这也是从车企角度看,吉利会成为第一个官宣上车DeepSeek的原因。

整个星睿大模型是一个技术体系,吉利已经搭建了3年之久。包括车控大模型、主动交互端侧大模、云端大模型、多模态融合引擎、算力基础设施等等。整合了自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态交互等AI技术,支持车辆控制、语音交互、场景化服务等功能。

DeepSeek“上车”后,也不会局限于只能座舱的交互应用。未来,DeepSeek R1的生成能力可以用来模拟复杂驾驶场景,加速算法迭代…

所以最前沿的大模型技术进入汽车行业,眼下还不是大水漫灌让所有玩家水涨船高,只有自身AI能力积累最深的头部车企,才能接住最早的一波红利。

以前是AI公司专门成立汽车团队和子公司,以项目形式作为乙方交付;国产基础大模型突破后,这种合作方式被颠覆,车企需要根据大模型的特征调整自己的技术体系和功能落地。

当然对车企本身自研能力和大模型基础提出更高要求。

#MambaST

行人检测SOTA!即插即用新模块,无痛涨点~

1.写在前面

行人检测是自动驾驶等应用中的一项重要任务,然而在低照明场景(如夜间),可见光(RGB)摄像头难以单独检测到行人,因此跨光谱融合方法显得尤为重要,利用热成像和可见光摄像头的互补信息提升检测效果。此外,行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性,以提高检测性能。虽然多模态融合和时空建模已取得一定进展,但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合,或多帧单模态输入。针对这一问题,本文提出了一种名为MambaST架构,基于状态空间模型(Mamba),首次结合了跨光谱的空间和时间信息,提出了多头层次化分块和聚合(MHHPA)模块,用于层次化时空特征提取。实验结果表明,MambaST在检测性能和模型效率上有显著提升,同时所需的模型参数和计算资源更少。​

相关工作总结

跨模态融合方法

多模态传感器数据提供了互补信息,常见的跨模态传感器组合包括RGB-thermal、RGB-LiDAR和RGB-Depth传感器,特别是在低光照环境下,热成像摄像头因其在各种光照和环境条件下能够提供详细的灰度图像而成为一种重要的融合传感器。

Mamba 和 Vision Mamba 的基础

Mamba 是一种用于序列建模的状态空间模型(SSM),其最初应用于一维序列数据。随后,研究人员将其扩展到二维图像数据,用于视觉任务。这些扩展版本(如 VMamba 和 Vision Mamba)通过将图像划分为路径序列或加入位置嵌入,展示了Mamba架构在图像特征提取方面的潜力。尽管已有研究使用Mamba进行多模态融合,但这些工作主要集中在单帧融合上,未能推广到多时序序列。

时序融合

为了进行时间融合,已有的方法包括3D卷积、自适应2D卷积和Transformer等,但这些方法通常无法处理多模态输入。其他方法则集中在单帧跨光谱空间融合,无法直接适应时间融合。在本文中,我们提出了一种扩展Mamba架构的方法,通过递归连接帧间的特征值,实现时序序列的融合。

2. 方法论详细总结模型架构概述

图片

MambaST模型基于YOLOv5的骨干网络、特征金字塔网络(FPN)层、金字塔注意力网络(PAN)层,以及检测器,用于单帧的RGB和热成像目标检测。模型生成的RGB和热成像特征图为  52 特征图,其中表示时间序列的长度,每种模态输入生成五层特征图,数字2表示RGB和热成像两个模态。用于空间融合的特征图层IRWiHiCi 和 ITWiHiCi分别代表RGB和热成像特征图的第三、第四和第五层,这些层的大小为 Wi,Hi,Ci{(80,80,4D), (40,40,8D), (20,20,16D),其中 D 是通道数的倍增因子, W,H,C分别表示特征图的宽度、高度和通道数。通过MHHPA模块(多头层次化分块和聚合),这些特征图被融合,增强了空间表示,融合后的特征图经过YOLOv5的FPN层、PAN层和检测器,得到最终的检测输出。

多头层次化分块和聚合(MHHPA)

图片

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息,本文提出了一种新的多头层次化分块和聚合(MHHPA)结构。现有的方法,如VMamba和Vision Mamba模型,通常在平展特征之前对其进行分块和标记,这样可以有效减少时间复杂度,但可能导致潜在的信息丢失,削弱模型提取细粒度信息的能力。相反,直接平展特征图用于融合的方法(如一些热成像-RGB融合工作)则可能引入噪声,特别是对于小物体的特征表示。因此,MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息,并将它们结合在一起,从而平衡了信息提取的精细度和噪声去除。

在 MHHPA 模块中,针对第 (t) 帧,RGB 和热成像特征图 (I^t_R) 和 (I^t_T) 分别表示为  (I^t_R \in \mathbb{R}^{H \times W \times c} \quad\text{和}\quad I^t_T \in \mathbb{R}^{H \times W \times c}.)对于不同的分块大小,特征图 (I^t_T, I^t_R) 首先被分块为  (I^{k}{t_T}, I^{k}{t_R} \in \mathbb{R}^{\frac{H}{S_k} \times \frac{W}{S_k} \times cS_k^2}, )其中 (k) 为分块大小的索引。接着,它们被按顺序连接和平展为  (z^k_t \in \mathbb{R}^{2 \cdot \frac{HW}{S_k^2} \cdot c S_k^2},)接着经过线性投影  (x^k_t = z^k_t W_k)并输入 MambaBlock 以获得输出 (x'^k_t)。MambaBlock 的输出会被重塑、拆分并加入到分块后的特征图中,得到更新后的  (I^{k}{t_T}, I^{k}{t_R}.) 该过程将重复 N 次,其中 N 是 Mamba 层的数量。最后,每个  ( I^t_{T}, I^t_{R}) 被上采样到原始大小,并通过连接汇聚在一起。

图片

其中ⵔ 表示函数聚合, 表示所有像素索引的连接操作。

顺序感知的拼接和平展(OCF)

为了在多光谱特征图的平展过程中保持空间连续性,本文提出了顺序感知的拼接和平展(OCF)过程。对于每一帧在时间 t 的特征图,OCF过程将来自RGB和热成像特征图的像素交替拼接,并按顺序平展,从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下:

图片

这里, 表示在所有像素索引 (i, j) 之间的连接操作。

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构,通过在时间帧之间建立递归连接,实现了时序序列的融合。基于Mamba的转换函数公式:

图片

Mamba 架构类似于一种带有输入可变翻译函数的递归神经网络结构。在时间融合中,我们在 MHHPA 模块之上建立帧间的递归连接。假设 MambaST 已经对前 (t) 帧进行了融合,并生成了隐藏向量()我们将最后的隐藏输出)与 ) 帧的平展特征图 ) 拼接起来,并输入 N 层 MambaBlock,得到更新的输出()同时更新(以便准备在下一步与(t+2)^\text{th}$) 帧的顺序平展特征图再次拼接。

图片

这一递归结构通过时间上的连接,有效地结合了时空信息,显著提升了行人检测的性能。

3. 实验结果详细总结数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集,包括41个视频序列,总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果:合理(reasonable)和合理小尺寸(reasonable small)。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人,而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率(LAMR)作为评价指标,LAMR值越低,性能越好。我们还报告了召回率,较高的召回率表示较低的假阴性率。此外,为评估算法效率,我们报告了推理过程中的模型参数数量和GFLOPs值,参数和GFLOPs值越低,意味着处理图像序列所需的计算资源越少,效率越高。

实现细节

在第一个 MHHPA 块中采用了尺寸  )的分块操作,并在随后的块中省略分块操作。分块尺寸被限制为 2 的幂,以保持维度一致性。MambaBlock 层数设为 (N=8)。骨干网络采用标准 YOLOv5L 设置,并将 (D) 设为 64。时间序列长度 (除非在消融研究中另有说明)。KAIST 图像大小为 (),训练时填充为 () (即 (W = H = 640))。原始 KAIST 数据集以 20Hz 的频率捕捉,为避免连续帧的冗余,我们采用了时间步长为 3 的策略,即跳过每两个帧。所提网络使用 Python 3.10.13 和 Pytorch 2.1.2 实现,并在 NVIDIA A100 GPUs 上执行。

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较,还包括基本特征加法策略和跨模态融合Transformer(CFT)。在基本特征加法策略中,RGB和热成像特征简单相加,所得特征图在模态间进行广播,这作为基线比较。对于更高级的跨模态融合方法,我们比较了CFT,这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧,为了实现时间融合,我们实现了三个CFT的变体进行全面比较:1)CFT模型,原始CFT逐帧应用;2)T-CFT模型,通过拼接所有时间步的特征图整合时间信息;3)D-CFT模型,这是一种变体,使用可变形注意力替代Transformer中的标准自注意力,以更高效地处理时间数据。

图片

小目标检测的评估

根据KAIST基准设置,将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明,MambaST在所有设置中表现优异,尤其是在小尺寸目标检测中,显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法,MambaST在达到更好检测性能的同时,所需参数数量和GFLOPs值最低,并且具有相对较低的推理延迟。

图片

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明,MambaST在夜间场景下的检测性能最为优异,并且随着输入帧数的增加,检测性能进一步提升。

图片

消融研究

我们进行了多组消融研究,评估不同参数选择的效果。首先,我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明,在第一个MHHPA块中使用四个分块尺寸,并在随后的块中省略分块操作,能够在合理和合理小尺寸设置下实现最低的LAMR。其次,我们评估了顺序感知拼接和平展模块(OCF)的影响,发现引入OCF进一步提高了检测性能。最后,我们测试了不同帧数()的影响,实验表明使用更多帧数能进一步提升模型性能,证明了Mamba模型在处理长序列上的优势。

图片

4. 可视化结果

图片

#MambaGlue

最强“胶水”来了:卓越速度+性能提升的局部特征匹配基于模型的方法如何加速

特征匹配是计算机视觉中多个几何任务的关键组成部分,这些任务涉及在 3D 地图中的图像点之间建立对应关系,例如视觉定位、同步定位与建图(SLAM)、运动结构恢复(SfM)等。通常,这些视觉技术通过匹配图像对中检测到的局部特征来实现,其中描述子向量用于编码其视觉外观。为了实现成功匹配,这些描述子必须既具备可重复性,又具备可靠性。然而,诸如无纹理环境、光照变化和视角变化等挑战使得生成唯一且具备区分度的描述子变得困难

为了解决不完美特征描述子的不足,研究人员提出了多种基于深度学习的方法。近年来,Transformer 架构已成为视觉应用中的事实标准,包括特征匹配任务。其中,LoFTR作为一种无检测器的稠密局部特征匹配模型,通过在粗到细匹配过程中使用 Transformer,与之前的方法相比,显著提高了匹配精度。然而,该方法在需要低延迟的应用(如 SLAM)中表现较慢。此外,SuperGlue和 LightGlue等稀疏特征匹配方法也被提出,它们同样采用基于 Transformer 的架构来学习图像对之间的匹配,并在室内外环境下展示了鲁棒的特征匹配性能,同时在速度和准确性之间取得了一定的平衡。然而,Transformer 模型的性能仍然伴随着较大的计算资源需求和训练难度

与此同时,Mamba作为一种高效处理序列数据的新兴架构被提出。由于其能够选择性地关注输入序列中的不同部分,Mamba 已被应用于语言和视觉任务,并在训练和推理速度上表现优异,具有较强的性能优势

本文介绍一种基于 Mamba 的局部特征匹配模型,称为 MambaGlue[1],它结合了 Mamba 和 Transformer 架构的优点。MambaGlue 通过 Mamba 架构的选择性输入关注能力,改进了整个模型的各层性能。此外,我们提出了一种网络结构,该网络可预测当前层估计的匹配对应关系的可靠性。通过这种方式,该模块允许 MambaGlue 在适应图像对匹配难度的同时,决定是否提前终止迭代,从而减少不必要的计算成本。我们的新颖方法通过精确适应特征匹配的难度,在低延迟的前提下实现了显著的精度提升。

项目链接:https://github.com/url-kaist/MambaGlue

主要贡献

  • MambaAttention Mixer:提出了一种新型的 MambaAttention mixer 块,该块利用 Mamba 架构的选择性输入关注能力,并结合注意力机制,以提升各层的性能。
  • 深度置信度分数回归器(Deep Confidence Score Regressor):进一步提出了一种基于多层感知机(MLP)的网络,该网络可以预测置信度分数,从而评估某个特征点是否可以可靠匹配。
  • 优化的匹配性能:在保持低延迟的同时,相较于最新的基准方法,实现了优越的匹配性能。
  • 混合架构的优越性:值得注意的是,MambaGlue 作为一种 Mamba 和 Transformer 结合的简单混合方案,优于当前最先进的稀疏特征匹配方法

MambaGlue 架构

MambaGlue 特征匹配方法的整体框架,如 图 2 所示。MambaGlue 主要由 N 个相同的层级 组成的堆叠层流水线(stacked layer pipeline)构成。输入由 两幅图像 A 和 B 中的局部特征集 组成。我们分别将 A 和 B 的特征集表示为 (F_A) 和 (F_B),其定义如下:

其中,(i) 和 (j) 分别表示图像 A 和 B 的特征索引,(N_A) 和 (N_B) 分别为 A 和 B 中的特征点数量,即 (|A| = N_A) 和 (|B| = N_B)。为了简化表示,我们用 (p^I_q) 和 (d^I_q) 分别表示特征点的位置和 d 维描述子,其中 (I \in {A,B})。

这些局部特征按照以下顺序依次通过流水线的各层:

  1. MambaAttention Mixer(MambaAttention 混合模块)
  2. Cross-Attention(交叉注意力)
  3. Deep Confidence Score Regressor(深度置信度分数回归器)

这三个模块协同工作,以增强特征描述子的表达能力。
在第 n 层((L_n))的末尾,深度置信度分数回归器会输出一个 置信度分数集合 (c_n),用于预测当前层匹配预测的可靠性。具体来说,该置信度分数集合定义如下:

其中,(K_n) 是第 (n) 层中所有特征点的索引集合,即 (|K_n| \leq |N_A| + |N_B|)。

接下来,系统会执行 退出测试(Exit Test),以决定是否终止迭代,从而减少不必要的计算成本:

  • 如果足够多的特征点具有较高的置信度,则 MambaGlue 停止迭代 并执行最终的特征匹配;
  • 否则,进入 特征点剪枝(Feature Pruning),移除可能不可靠的特征点,并进入下一层计算。

当系统确定已经找到足够的匹配点时,迭代终止,并执行最终的匹配步骤,输出最终匹配结果集合:

特征剪枝和匹配步骤的退出测试与 LightGlue相同,但 MambaGlue 提供了更高的精度和更强的鲁棒性。​

MambaAttention Mixer

受 MambaVision 的启发,我们提出了一种基于 Mamba 的自注意力块,称为 MambaAttention Mixer。该模块的设计如图 3(b) 所示,主要由三个分支组成:

  1. 自注意力(Self-Attention)分支,结合位置编码(Positional Encoding)来处理特征点的位置信息;
  2. 直接连接输入的分支,用于保留原始特征信息,避免信息损失;
  3. Mamba 计算路径,借鉴 MambaVision 结构,以增强模型对长距离依赖关系的捕捉能力。

上述三条信息路径的结合,使 MambaAttention Mixer 既能全局感知特征信息,又能选择性地关注最相关的输入,从而提高匹配的准确性和鲁棒性。

在每一层(见图 2(b))中,MambaAttention Mixer 和交叉注意力(Cross-Attention)交替作用。我们为目标图像 I 的每个局部特征点分配一个状态向量 ,并初始化为其对应的描述子:

随后,该状态经过 MambaAttention Mixer 和交叉注意力模块的更新。

在 MambaAttention Mixer 计算过程中,每个点的特征状态  会被更新为:

其中:

  • ([ \cdot \mid \cdot ]) 表示向量拼接;
  •  是 MambaAttention Mixer 提取的信息;
  • 交叉注意力模块(Cross-Attention)用于聚合来自匹配图像的信息,而 MambaAttention Mixer 主要用于从当前图像的局部特征中提取信息。

MambaAttention Mixer 计算的信息  由三部分组成:

其中:

  •  是基于自注意力计算得到的全局特征;
  •  和  来自 Mamba 计算路径,分别用于增强短程和长程特征的表达能力。

具体来说, 通过标准的自注意力机制计算:

其中:

  •  是投影矩阵;
  •  是注意力权重,定义为:


    其中  和  分别是通过线性变换得到的键(Key)和查询(Query)向量, 是旋转位置编码(Rotary Position Encoding)。

在 Mamba 计算路径中,我们定义一个特征编码函数  来表示经过卷积和激活函数处理后的特征表示:

其中:

  • (\text{Linear}(d_{in}, d_{out})) 表示输入维度为  ,输出维度为  的线性变换;
  • (\text{Conv}(\cdot)) 表示一维卷积操作;
  • (\sigma) 是 Sigmoid 线性单元(SiLU)激活函数。

利用该编码函数,我们计算  和 :

其中,(\text{Scan}(\cdot)) 是选择性扫描操作(Selective Scan Operation),用于高效提取输入序列中的最相关片段。

通过将 MambaAttention Mixer 与交叉注意力模块结合,MambaGlue 既能全局捕捉特征点之间的长距离依赖关系,又能局部关注匹配点的信息,从而提高特征匹配的精度和计算效率。​

退出测试以实现提前终止

我们采用退出测试来进行高效的提前终止,以减少不必要的计算成本。当用户启用该功能时,该模块可以在检测到当前迭代已经产生足够数量的可靠匹配点时提前停止计算,从而降低推理开销。

假设某个点在图像 A 或 B 中的置信度分数为 ,如果其置信度超过某个用户定义的阈值 ,则认为该点是 可信的,即:

退出测试  在每一层的末尾执行,定义如下:

如果否则

其中:

(\alpha) 表示用户定义的最低可信匹配比例。换句话说,退出测试在每一层后都会检查,**如果当前层中可信匹配点的比例超过阈值 **,则停止后续的计算。

在实验中,我们设置  为 0.95,即当 95% 以上的匹配点达到了置信度要求后,就提前终止迭代,以节省计算资源。该退出机制减少了计算量,同时保持了与不使用提前终止时相似的匹配性能。

在我们的方法中,退出测试可以显著提高推理效率,并且能够根据数据集的不同需求进行调整。对于某些应用场景(如实时视觉任务),可以设定更严格的退出阈值 ,从而进一步加快匹配速度,而在需要高精度的应用中,则可以选择更低的  值,以确保匹配质量。​

损失函数

我们在两个阶段训练 MambaGlue,类似于 LightGlue 的训练过程。首先,我们训练网络来预测匹配关系,这时不使用退出测试。我们训练时只关注匹配预测的准确性,而不考虑提前终止。然后,我们单独训练深度置信度分数回归器,以保证退出测试的准确性。第二阶段的训练不会影响第一阶段训练好的匹配预测能力。

我们使用最大似然估计的损失函数来训练匹配预测矩阵 P。匹配预测矩阵 P 通过两幅图像之间的两视图变换获得真实标签,这些标签是基于相机的相对位姿和深度计算得出的。

我们定义的真实匹配记作集合 M,其中包含投影误差低且深度一致的点对。而不可靠的点记作 A 和 B 中的子集 Ã 和 B̃,这些点的投影误差或深度误差较大,因此不能作为可靠的匹配点。

损失函数 L 设计如下:

其中:

  • Pij 是匹配概率矩阵;
  • σAi 和 σBj 分别是图像 A 和图像 B 中每个点的匹配置信度。

与 LightGlue 的比较

总的来说,我们的 MambaGlue 基于 LightGlue 构建,但在精度和效率上有所提升。MambaGlue 在每一层的精度更高,因此总体上更为准确。通过结合 Mamba 和自注意力,MambaGlue 能够选择性地且全局地处理输入数据,增强了鲁棒性,这超出了仅使用 Transformer 架构的可能性。此外,在每一层的末尾,所提出的深度置信度分数回归器提供了对状态的层次化理解,相比于仅使用单一线性层的结果,生成了更加丰富的上下文输出。尽管做出了这些改进,损失和召回图表显示,MambaGlue 仍然易于训练,甚至比 LightGlue 收敛更快,如图 4 所示。​

实验效果

总结一下

MambaGlue是一种快速且鲁棒的匹配方法,该方法结合了 Mamba 和 Transformer 架构,以实现准确且低延迟的局部特征匹配。特别是,我们提出了 MambaAttention mixer 模块,以增强自注意力的能力,并引入深度置信度分数回归器,以预测可靠的特征匹配结果。实验结果表明,MambaGlue 在准确性和速度之间达到了最佳平衡。

局限性:尽管 MambaGlue 在特征匹配方面取得了显著的改进,但该模型仍然依赖于 Transformer 架构,这使得与纯 Mamba 架构相比,其计算资源需求仍然较高。

未来研究:计划构建一个仅基于 Mamba 的模型,以实现更加轻量化和快速的特征匹配。

#端到端自动驾驶崛起,这6类岗位将成为核心

“端到端智驾”无疑是2024年自动驾驶行业最火热的词汇,也是各家车企竞相量产落地的技术。目前,市场上头部智驾企业的量产方案大都处在模块化端到端(又称两段式端到端)的阶段,正在朝“一段式端到端”迈进,即传感器采集的数据输入给端到端模型,模型输出未来的行驶轨迹。端到端模型侧重于从大量的人类驾驶数据中学习开车,寻找驾驶的规律。

图片

端到端智驾颠覆了传统的阶段式智驾方案,使得各大智驾企业纷纷组织架构调整,比如:

2024年8月,小鹏将涵盖感知、规划、控制、定位算法的技术开发部拆成了AI端到端部门和AI应用部门;

2024年11月,理想智驾团队再变阵,智驾算法部门拆分为3组:“端到端”模型算法与落地、世界模型、量产研发,三个部门均直接汇报给智驾一号位郎咸朋;

2024年12月,蔚来智能驾驶研发部门宣布了一系列组织架构调整方案,智驾平台部门分为大模型部、部署架构与方案部和系统部。

技术范式的变化,必然带来岗位的变动。接下来我们将分析端到端智驾范式下,哪些岗位更加重要了。

岗位分析

01 深度学习算法工程师

原因:

端到端自动驾驶的核心思想是,通过深度神经网络模型直接从原始传感器数据(如摄像头图像、激光雷达点云)映射到转向/加速/刹车等车辆控制指令(虽然目前端到端的输出是行驶轨迹,然后再接传统控制方法)。传统方法采用分模块设计(定位+感知→规划→控制),依赖人工规则和算法级联。端到端方法则由深度学习模型统一完成所有任务,模型需自主学习和优化整个驾驶流程。算法工程师需设计和优化端到端模型架构(如Transformer、多模态融合模型)。

技能需求:

·深度学习框架(PyTorch、TensorFlow)及模型部署的优化技术(如知识蒸馏、模型量化);

·多模态数据融合(视觉+雷达+激光雷达)、强化学习(用于驾驶策略学习);

·对自动驾驶场景的深度理解(如长尾问题、Corner Case处理)。

02 数据科学家与数据工程师

原因:

端到端模型依赖海量高质量数据,用于构建数据闭环(Data-Centric AI)。数据闭环覆盖数据采集、清洗、标注、增强到迭代优化的全流程。

技能需求:

·自动化数据标注工具开发(如半监督学习驱动的标注系统);

·数据合成技术(GAN生成对抗网络、NeRF/3DGS模拟场景);

·数据分布分析与长尾问题挖掘(如罕见场景的数据增强)。

03 仿真与场景生成专家

原因:

端到端模型需在虚拟环境中验证安全性,需构建高逼真的仿真平台,覆盖极端场景(如暴雨、行人突然闯入)。

技能需求:

·仿真引擎开发(如基于CARLA、Unreal Engine的定制化工具链);

·场景生成算法(基于真实数据泛化或对抗生成网络创造Corner Case);

·自动化测试框架(覆盖百万级测试里程的回归验证)。

04 模型部署与边缘计算工程师

原因:

端到端模型需在车载芯片(如NVIDIA、高通)上实时运行,需解决算力与功耗的平衡问题。因此,端到端自动驾驶对计算效率、实时性和资源利用率的要求更高,模型部署与边缘计算工程师是确保系统落地和可靠运行的关键。

技能需求:

·模型轻量化技术(剪枝、量化、TensorRT优化);

·嵌入式系统开发(ROS 2、AUTOSAR适配);

·异构计算优化(GPU/FPGA/ASIC资源分配)。

05 AI安全与可解释性专家

原因:

端到端模型的黑箱特性导致安全隐患(如对抗攻击、不可预测的决策逻辑),需确保模型符合功能安全标准(ISO 26262)。

技能需求:

·模型可解释性分析(如注意力机制可视化、因果推理);

·安全验证方法论(形式化验证、鲁棒性测试);

·预期功能安全风险场景库构建。

06 AI运维与数据闭环工程师

原因:

这是在端到端趋势下新兴的岗位,该职位需要管理车端数据回传、模型迭代更新(OTA)、数据隐私保护(如联邦学习)。

技能需求:

·设计从车端数据回传、模型更新到部署的全流程闭环系统;

·熟悉联邦学习(Federated Learning)与边缘计算结合的技术;

·设计实时监控系统,跟踪模型精度、延迟、资源占用等指标;

·熟悉日志分析与异常检测工具;

·掌握模型性能下降的原因分析与修复方法(如数据漂移、模型退化);

·熟悉A/B测试与灰度发布策略。

总结与建议

对于以上的岗位需求变化,编者总结出三点建议给大家:

(1)技术转型:传统工程师需学习AI工具链(如PyTorch、MLOps),向“AI+领域知识”复合型人才发展;

(2)关注长尾问题:深耕Corner Case处理、模型可解释性等端到端技术瓶颈领域;

(3)跨界协作:AI工程师需与汽车电子、法规专家紧密合作,理解整车系统与行业标准。

端到端自动驾驶并非完全取代传统技术栈,而是推动行业从“规则驱动”向“数据驱动”的范式转移。这个过程是逐渐收敛的,不是一蹴而就的,会持续数年的时间。就像蔚小理最新的组织架构那样,智驾团队中依然存在量产交付的团队,他们负责为数据驱动的端到端模型兜底下限(用基于规则的方法或者其他)。

在这一长达数年的变革浪潮中,作为工程师的我们,持续学习能力和跨领域协作将成为核心竞争力。苟住!

#SMART

推进可扩展的地图先验以实现驾驶拓扑推理

  • ​论文链接:​​https://arxiv.org/pdf/2502.04329​​
  • 项目主页:https://jay-ye.github.io/smart/

摘要

本文介绍了SMART:推进可扩展的地图先验以实现驾驶拓扑推理。拓扑推理对于自动驾驶是至关重要的,这是因为它能够全面理解车道和交通元素之间的连接和关系。尽管最近的方法在使用车载传感器感知驾驶拓扑方面取得了成功,但是它们的可扩展性受到阻碍,因为这些方法依赖于由一致的传感器配置获取的训练数据。本文发现,可扩展车道感知和拓扑推理的关键因素在于消除这种与传感器相关的特征。为了解决这一问题,本文提出了SMART,这是一种利用容易获取的标准清晰度(SD)和卫星地图来学习地图先验模型的可扩展解决方案,该先验模型由与传感器设置无关的大规模地理配准的高精(HD)地图进行监督。得益于大规模训练,SMART仅使用SD和卫星输入即可实现卓越的离线车道拓扑理解。大量实验进一步证明,SMART可以无缝集成到任何在线拓扑推理方法中,从而使得在OpenLane-V2基准上实现了高达28%的性能提升。

主要贡献

本文的贡献为如下三方面:

1)本文提出了一种简单而有效的大规模地图先验学习架构,它通过SD和卫星输入实现了出色的车道拓扑推理;

2)本文提出了一种地图先验模型,它可以无缝集成到任何拓扑推理框架中,从而增强鲁棒性和泛化能力;

3)本文在广泛使用的基准上进行评估,结果突出了SMART在驾驶拓扑推理方面的有效性,它实现了最先进的性能。

论文图片和表格

总结

本文引入了SMART,它为可扩展且可泛化的驾驶拓扑推理提供了一种新的视角,同时避免了对大量传感器数据的需求。通过利用现成的地理空间地图和现有的大规模HD地图数据集,SMART实现了出色的离线拓扑推理,并且提供了强大的地图先验表示,它可以无缝集成到任何在线驾驶拓扑推理架构中,从而实现最先进的性能。更广泛而言,SMART为未来研究开辟了有前景的途径:(1)在模型规模和数据方面扩展SMART以开发全面的地图基础模型;(2)探索地图先验特征在其它任务中的巨大潜力,例如轨迹预测、运动规划和端到端驾驶,其中对车道结构的深入理解是至关重要的。本文坚信,该工作将大大推进自动驾驶中可扩展且可泛化的驾驶拓扑推理的发展。

#端到端自动驾驶:到底有哪些可能的量产技术路线?

0.1 什么是端到端?

首先定义端到端,当然有很多说法。我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。进一步说,在前传和反传,planning可以直接触及输入信息

0.2 为什么做端到端?

① 优势一:应对场景更多样;

② 优势二:上游出错的结果,不一定影响下游的planning;比如,如果看tesla的有些视频,就是这样,明显感知出错了,不影响planning;

③ 优势三,性能天花板够高,模型设计空间大:比如可以和大模型结合;比如,可以和无监督训练结合。因为,无监督,说明特征无倾向;数据量够大,说明特征泛化好。那分阶段的,一般是有监督训练,当然也可以无监督做个backbone,但还是需要有监督再调;​

1、端到端技术路线划分及代表工作

① 直接端到端:就是说,不需要中间感知预测模块,比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer;可能需要监督,也可能不需要监督,但是,都没有中间模块了;

② 模块化端到端:以UniAD为代表,FusionAD,VAD,GenAD,都是;

③ 大语言模型路线:drive like a human, driveGPT4, LMDrive, EMMA,Senna;我认为是,这条路线在NLP和多模态的成功,具有启发意义;

④ 基于world model的路线:world models,dreamer-V1\V2, sem2,mile,driveworld, 这些的状态转移,其实就是world model。但是现在所说的world model,比如gaia-1, drivewm, 其实可以和端到端模型结合,比如drivewm做了一个比较粗糙的结合。我认为是趋势,是未来。

⑤ 基于Diffusion的路线:以DiffusionDrive为例;

按照学习范式,又可分为模仿学习和强化学习,这两个并不冲突,可以一起用。

以上,仅为梳理方便而人为划分,仅供参考。角度不同,划分也不同。我认为,每个研究领域都有其自己的生命力,不可硬性分为几个set的。​

2、路线分析

2.1 直接端到端 和 模块化端到端 的对比

直接端到端,由传感器信息直接映射到action或者轨迹。由于action或轨迹都太稀疏,训练较为困难,因此,这条路线一般辅以感知的监督训练,如bevseg、occ、车道线、红绿灯等。比如mile、driveworld、dreamer-v1、dreamer-v2、sem2、bevplanner、transfuser、driveTransformer.

直接端到端(以mile举例)

直接端到端(以mile举例)

模块化端到端,传感器信息,经过若干感知模块,映射为action或轨迹。不同模块间可传梯度,共同训练。其类似于传统的分阶段自动驾驶,不过是把不同阶段通过transformer中的query机制连接. 以UniAD为代表,FusionAD,VAD,GenAD,都是;

模块化端到端(以UniAD举例)

模块化端到端(以UniAD举例)

BevPlanner里面的对比图(上面是模块化端到端,下面是直接端到端)

BevPlanner里面的对比图(上面是模块化端到端,下面是直接端到端)

对比可知,由于现有直接端到端也会辅以感知的监督,直接端到端和模块化端到端的共同点是都需要感知监督。不同的是,直接端到端是并联形式,也就是基于共同的表征feature map,来学习感知和规划;模块化端到端的主线是串联形式,还是依赖于感知结果的。

因此,我认为是直接端到端的天花板更高,而模块化端到端更好训练一些。因为模块化端到端的中间模块,就是通过对应的感知,释加显示的约束,减小求解空间,那这带来的好处就是好训练,不好就是可能把更有效的规划结果给约束掉了。虽然直接端到端也辅以感知,但毕竟是隐式的,也就是感知是为了学习feature map, 规划还是直接基于feature map的。

ICLR2025在投论文 DriveTransformer,感知、预测、规划并联输出

ICLR2025在投论文 DriveTransformer,感知、预测、规划并联输出

我认为这两条路线,没有本质区别,只是技术发展的一个顺序:模块化更好训,但最终收敛到直接端到端。但达到更好效果,还有不少工作要做。

2.2 基于VLM或LLM的端到端方案

比如drive like a human, driveGPT4, LMDrive, EMMA,Senna。

首先,我觉得VLM或LLM是有用的。

因为LLM或VLM,复杂场景理解、推理能力,这是很强的。另外一方面,在自动驾驶里,对于轨迹解释、VQA等,可能只能用VLM这样的技术来做。

但是,具体怎么用?是直接替代模块化端到端,还是和他们结合?我认为是后者。

VLM擅长场景理解和推理。所以在复杂场景,模块化端到端可能就傻眼了;VLM呢,泛化能力强,还能有个基本的场景理解。所以这些场景,VLM出决策建议,或者粗轨迹给模块化的端到端,或者直接给下游,应该是很有用的。

(1)双流架构的模型:

也就是一个运行快的模型,和一个运行慢的模型,并行运行;至于二者怎么分工和交互,每个工作各有所长,这个细节可以在讨论。相关工作,比如 DriveVLM、LeapAD、AsyncDriver。On the road虽然没做,但在future work中提到了感知部分需要融合传统方案和VLM方案的双流构思。Senna是做端到端规划,其逻辑和思想,与On the road一致。On the road和Senna都认为,VLM适合粗粒度的场景理解和推理,应结合具体任务的模型,实现专家模型泛化能力的增强。我个人非常赞同这个观点。

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024.03, DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

2024.05, Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving (LeapAD)

图片

2024.06, Asynchronous Large Language Model Enhanced Planner for Autonomous Driving,和DriveVLM不同的是:这里的两个系统是做自适应融合,而DriveVLM是做switch.

图片

2023.11, On the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent的conclusion部分, 总结的特别好:VLM适合粗粒度的场景理解和推理,可和具体任务模型(专家模型)结合,发挥二者优势。

图片

2024.10,Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

2024.10,Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

(2)3D信息:

有几篇工作,支撑需要3D信息的观点。至于这个3D,是显式的监督信息带来的,还是2D自监督带来的(如dinov2),是可以讨论的。比如"Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? "、”Language-Image Models with 3D Understanding(Cube-LLM)“、”On the Road with GPT-4V(ision): Explorations of Utilizing Visual-Language Model as Autonomous Driving Agent“。前两篇,是正向支撑,证明了加了3D比较好;第三篇是反向支撑,证明没有3D的定位和空间推理能力弱。

图片

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

2024.05, "Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

2024.05, Language-Image Models with 3D Understanding(Cube-LLM)

2024.05, Language-Image Models with 3D Understanding(Cube-LLM)

(3)总结:

总的来说,这条路线的发展趋势可能是:①和非大语言模型的方案形成双流架构;② 补充3D信息。

此外,On the Road with GPT-4V 和 Image Textualization这两篇论文都提到,现在VLM对环境的感知,属于粒度比较粗的场景理解。

当然,如 Image Textualization这样的方法,正在弥补VLM在细粒度问题上的不足。这条路线值得一直关注。

2.3 基于world model的端到端路线

World Model分为两类:端到端自动驾驶模型中的world model,数据生成中的world model。

world model的定义:

2018, World Models

2018, World Models

World Model要具备三个属性:预测、表征、可控。

(1)端到端自动驾驶模型中的world model

用于开车:探讨世界模型的集成如何使自动驾驶汽车能够预测并制定行动策略?

比如早期的world models,dreamr-V1, dream-V2, sem2, Fiery,mile, 近期的DriveWorld,以Mile为代表:

​​https://wayve.ai/thinking/learning-a-world-model-and-a-driving-policy/​​

图片

但是这条路线,好像是用到机器人的偏多,,,用到智驾有一个明显问题:累计误差。

目前,智驾领域的World Model,一般指基于action条件的驾驶场景数据生成

(2)数据生成中的world model

用于数据生成和驾驶行为理解:corner case的数据生成,模型或人类驾驶行为的理解

以GAIA-1为代表:

​​https://wayve.ai/thinking/scaling-gaia-1/​​

2023.09,GAIA-1

2023.09,GAIA-1

(3)二者的统一:Foundation Model

2024.05, DriveWorld, 把Occ预测和action规划合二为一

2024.05, DriveWorld, 把Occ预测和action规划合二为一

Mile, 其实也是生成和规划合二为一的

Mile, 其实也是生成和规划合二为一的

将生成和规划合二为一的,基本都可以作为foundation model。这类工作有个共性,就是生成的对象是有语义信息和几何信息的。按道理,也只有这样才能做规划。比如,Driveworld是生成Occ; Mile是生成BevSeg图。

值得说明,Mile本身不是Foundation model,但其范式非常具备自动驾驶Foundation Model的潜力。Mile是一篇非常好的学术工作,指的不是性能好,而是启发性强。后期很多端到端的工作,都有Mile的影子。DriveWorld里的MSSM和Mile也类似。

(4)总结world model的用处:

第一个是:端到端出planning或action

第二个是:数据生成,可控数据生成,corner case数据生成;给训练感知或端到端自动驾驶模型用;

第三个是:真实场景的闭环仿真系统,采集数据、评估模型、驾驶行为理解;

第四个是:Foundation Model。也就是基于这个模型,做一系列下游任务。这种范式的工作并不多,代表性的是DriveWorld。个人猜测特斯拉是基于worldmodel,,,因为tesla这么大的算力,我想不是训练模块化端到端,也不是训练VLM,,只有world model匹配如此大算力。仅为个人猜测。

个人认为:虽然这两年是模块化端到端和VLM端到端热闹,过两年可能就是world model了;world model是非常具备潜力的方向,端到端可以看做是world model的子集。

2.4 基于Diffusion的端到端路线

这方面看的不多,以DiffusionDrive举例

Motivation:扩散模型已被证明是机器人领域一种强大的生成决策策略;而扩散本身是连续空间的问题,和轨迹规划更契合,但Diffusion用于规划,不能实时;

图片

  1. 直接把Transfuser里的planning decoder换成diffusion,有两个问题:模式坍塌、时间太长;
  2. 因此提出,Truncated Diffusion:

① 添加anchor的概念,基于anchor做扩散;

② 前向扩散,只添加小部分高斯噪声,不要到全部是高斯噪声;

③ 其他细节:前向diffusion steps=50,反向denoising steps=2。

图片

个人认为有两个地方疑惑:

  1. 消融实验,无从验证diffusion真正起到的作用;
  2. 为什么要用diffusion做规划?没有论述。个人认为,轨迹规划,本身可以看出是分布的问题,用Diffusion合情合理;但总感觉,杀鸡用牛刀,diffusion更适合分布复杂的情况,如图像生成、语音生成,而对于轨迹规划,可能不能凸显出diffusion的优势。

补充:基于Diffusion的方法,和前面所说的直接端到端、模块化端到端,甚至基于world model的端到端,不冲突,是结合使用的。简单说,就是把一步回归改为多步回归。

3、总结

图片

整体来说,这几条路线,统一大于对立

#Beyond Sight

UC伯克利最新!零样本微调通用机器人策略多模态数据整合到机器人策略中困难

与世界交互是一种多感官体验:要实现有效的通用交互,需要利用所有可用的模态,包括视觉、触觉和听觉,来填补部分观测的空白。例如,当视觉被遮挡(如把手伸进袋子里)时,机器人应依靠触觉和听觉。然而,当前最先进的通用机器人策略通常是在大型数据集上进行训练,仅从视觉和本体感受观测来预测机器人动作。在这项工作中,我们提出了 FuSe,这是一种新颖的方法,它能够通过利用自然语言作为通用的跨模态锚定,在难以获取大型数据集的异构传感器模态上微调视觉运动通用策略。我们将多模态对比损失与基于感官锚定的语言生成损失相结合,以编码高级语义。在机器人操作的背景下,我们展示了 FuSe 能够在零样本设置中执行具有挑战性的任务,这些任务需要对视觉、触觉和声音等模态进行联合推理,如多模态提示、组合式跨模态提示以及对与之交互的物体进行描述。我们表明,相同的方法适用于各种不同的通用策略,包括基于扩散的通用策略和大型视觉 - 语言 - 动作(VLA)模型。大量的实际实验表明,与所有考虑的基线相比,FuSe 能够将成功率提高 20% 以上。项目页面:​​https://fuse-model.github.io​​​

一些介绍

智能生物能够无缝地整合各种感官反馈,从而有效地与物理世界进行交互。除了视觉,人类在操作物体时还依赖触觉和听觉反馈 ,因为它们能提供关于物体属性的丰富补充信息,特别是当仅靠视觉信息不足以完成任务时,比如在袋子里找钥匙。这与当前最先进的 “通用” 机器人策略形成对比,这些策略从大量机器人数据集中吸收知识,但通常仅依靠视觉和本体感受观测来执行各种任务。基于真正异构数据的通用机器人策略发展的主要限制因素是,几乎所有机器人数据集都包含视觉和本体感受信息,但只有少数包含其他感官数据。这就引出了一个问题:如何在保留基于大量数据预训练的通用机器人策略的泛化能力的同时,将其语义知识与难以获取大型数据集的异构感官数据联系起来?

在这项工作中,我们应对这些挑战,并提出一种在较小规模数据集上微调通用机器人策略的方法,这些数据集包含与视觉互补的模态,如触觉和声音。我们证明,通过这种多模态微调过程,可以解锁新的能力和跨模态语义理解。我们的核心观点是,通过辅助损失将所有模态锚定在单一的通用自然语言模态中,我们可以实现对所有模态的联合推理。通过这样做,我们使我们的策略能够在零样本设置中执行具有挑战性的操作任务,这些任务需要对视觉、触觉和声音进行联合推理,支持多模态提示、在交互时生成物体描述,以及组合式跨模态提示。在实际应用中,我们的策略可以成功完成具有挑战性的任务指令,例如 “挑选柔软且发出响亮声音的红色物体”“描述抓取物体的触感”“挑选与播放钢琴声音的按钮颜色相同的物体”。

我们的结果表明,利用在多模态数据上微调的预训练通用机器人策略,始终优于仅在视觉数据上微调或在异构感官数据上从头开始训练的基线模型。我们发现,相同的通用方法适用于具有广泛不同架构的通用策略,例如 Octo,这是一种基于大型 Transformer 的策略,在 Open X-Embodiment(OXE)数据集上进行训练,以及具有 PaliGemma 视觉语言模型(VLM)骨干网络的 30 亿参数 VLA 模型。在实验中,我们收集了一个包含 2.7 万个机器人轨迹的数据集,涵盖视觉、触觉、音频、本体感受和语言指令,涉及三种不同的实际机器人操作任务。据我们所知,这个数据集是首个包含机器人动作数据的此类数据集,这对于执行基于物理的多模态任务至关重要。我们开源了所有数据、代码和模型,以支持该领域的未来研究。​

相关工作

通用机器人策略。通用机器人策略已显示出通过处理多样的大规模数据来实现机器人任务泛化的潜力。这些策略利用了最近向社区开放的大型机器人数据集,并且通常通过定义任务的语言指令进行查询。在某些情况下,机器人动作与视觉语言模型(VLM)骨干网络相结合,由于在互联网规模的数据上进行预训练,提高了泛化能力。然而,尽管最近推出的一些模型能够自然地处理灵活的观测,但包含其他感官模态(如触觉或听觉)的数据集的稀缺性,将它们的能力主要限制在视觉输入上。相比之下,我们的工作展示了如何通过数量少得多的包含额外异构模态的机器人数据来增强这些能力,从而在零样本设置中实现对视觉、触觉和声音等模态的联合推理。

机器人中的多模态推理。多模态旨在利用不同传感器之间的互补性,增强自主机器人策略的能力。其优势在文献中已多次得到证明,可提高性能、泛化能力或鲁棒性。尽管有这些证据,但只有少数研究使用了视觉和本体感受之外的传感器模态。这在向社区开放的机器人数据集中也有所体现。例如,最大的机器人数据集集合 Open X-Embodiment(OXE)默认的感官模态中不包括触觉或声音。一些值得注意的例外包括最近的研究,这些研究试图将视觉、语言和触觉对齐用于感知任务。然而,这些研究提供的大多数可用数据集不包含机器人动作,限制了它们在策略训练和执行基于物理的多模态任务方面的适用性。在这里,我们首次引入一个多任务数据集,其中包括视觉、触觉、音频、惯性测量、本体感受,以及机器人动作和语言指令。然后,我们利用这个数据集来微调大型通用机器人模型,解锁新的多模态推理能力。​

FuSe 微调

当前最先进的通用机器人策略通常依赖视觉、语言和机器人动作作为训练模态,这限制了它们在部分可观测场景中的适用性,在这些场景中,任务无法仅通过视觉完成。我们提出了一种名为 FuSe 的方法,用于将异构感官数据融合到通用机器人策略中。具体来说,我们对这些策略进行微调,将它们的语义理解扩展到包括额外的传感模态,如触觉和声音,同时保留它们的预训练知识。通过提出两种辅助损失,将异构观测与自然语言进行对比,并从观测中生成语言,我们能够将各种传感模态与预训练通用机器人策略的语义知识联系起来。在本文的主要实验中,我们使用基于 Transformer 的预训练策略 Octo 作为骨干模型,但我们也展示了相同的微调方法适用于基于 PaliGemma VLM 骨干网络的 30 亿参数视觉 - 语言 - 动作模型。训练架构如图 2 所示。

这种微调策略带来了三个主要挑战:第一,新模态的特征提取器(编码器)的权重通常需要从一个小数据集中有效学习;第二,经验表明,微调后的模型倾向于主要依赖预训练模态,忽略新传感器;第三,新的跨模态提示能力依赖于特定模态的注释,例如 “物体感觉柔软且有弹性”。下面我们详细介绍应对这些挑战所需的修改。

触觉编码器

为了解决微调数据集规模小的问题,我们使用预训练的触觉编码器,并将其与骨干 Octo 架构一起进行微调。具体来说,我们使用 TVL 编码器,它是通过跨视觉、语言和触觉模态的成对对比学习进行预训练的。我们将所有触觉图像(在我们的机器人设置中有两个)分别通过相同的 TVL 编码器进行处理。

音频编码器

由于原始音频波形维度高且有噪声,我们按照先前的工作对音频数据进行处理,构建频谱图。然后,频谱图被视为常规图像,并通过 ResNet26 编码器进行处理。

辅助损失

如前所述,一种简单的方法是使用基于均方误差(MSE)的模仿损失 ,以额外的传感器数据为条件对预训练的通用策略进行微调,但这会导致策略过度依赖其预训练模态,忽略新模态。我们通过引入两种额外的损失来克服这个限制,这两种损失充分利用多模态,并将预训练通用策略的语义知识与未见过的传感器模态联系起来:

  1. 多模态对比损失:我们引入一种损失,旨在通过类似 CLIP 的对比学习,将各种语言指令与观测对齐。从高层次上讲,它旨在最大化同一场景的不同模态和语义之间的互信息。具体来说,我们通过将所有模态再次输入 Transformer,并通过多头注意力层将它们组合起来,构建一个观测嵌入。然后,我们为不同可用模态组合产生的每个可能指令计算一个类似 CLIP 的损失。这些损失最终取平均值,形成一个组合的多模态对比损失。
  2. 多模态生成损失:我们设计了一个生成网络,作为骨干模型的附加头部。在实践中,对于每个可能的模态组合,我们如上所述构建一个观测嵌入,并将其输入生成头部。然后,我们通过将头部输出与适当的语言指令进行比较,计算一个辅助交叉熵损失 。我们对所有可能的模态组合使用单个 Transformer 作为生成头部,并使用模态令牌来区分输入模态。

最终的损失由 给出,其中对比损失和生成损失在训练期间与 MSE 动作损失相加。

语言改写

如前所述,跨模态提示能力需要特定模态的注释,例如 “物体感觉柔软且看起来是圆形的”。我们用事后的语言注释对收集的带有异构传感器的机器人轨迹进行标注。我们用模板化语言对这些轨迹进行注释,这使我们能够基于多个传感器输入创建增强注释,如 “物体感觉柔软且是红色的” 或 “物体感觉是金属质地且发出叮当声”。然而,在测试时,我们希望用户用自由形式的语言来指令策略。为了增加可能的输入指令范围,我们通过查询大型语言模型 ChatGPT 来生成原始模板的改写版本,以增强数据集中的指令,这些改写版本保留了原始语义。

实现细节

我们在 v5e - 128 TPU pod 上对所有模型进行 50000 步的训练,批次大小为 1024。我们使用带有 2000 个热身步骤的余弦学习率调度器,峰值学习率为  。我们的语言改写缓冲区为每个可能的模态组合包含 20 个不同的模板。在所有实验中,我们将 β 设置为 1,λ 设置为 1。​

实验分析

在本节中,我们研究 FuSe 在微调预训练通用机器人策略以纳入额外传感器模态方面的有效性,同时将这些模态与策略的预训练语义知识联系起来。我们回答以下问题:

  1. FuSe 是否有助于在部分可观测环境中以零样本方式执行多模态提示任务?
  2. FuSe 是否能够使多模态提示区分仅用单一模态描述会产生歧义的物体?
  3. FuSe 的多模态能力能否应用于组合推理任务?
  4. 在微调 FuSe 时,所提出的辅助跨模态语言锚定损失对于实现高性能是否必要?
  5. FuSe 是否适用于不同的通用机器人策略架构?

真实机器人设置和训练数据

我们所有的实验都使用 WidowX 250 六自由度机械臂。机器人通过末端执行器的增量位置命令以 5Hz 的频率进行控制。该系统配备了一个第三人称视角的 RGB 摄像头、一个手腕 RGB 摄像头、两个位于夹爪手指上的 DIGIT 触觉传感器、一个标准麦克风和一个 9 自由度的 IMU。我们展示了在三个不同任务上的实验,如下所述。在抓取场景中,我们在训练数据集中的 24 个物体以及 32 个未见过的测试物体上进行评估;在按钮任务中,我们在训练数据集中看到的 6 个按钮和 18 个干扰项 / 抓取目标中的 13 个,以及 2 个未见过的按钮和 12 个未见过的干扰项上进行评估。我们在图 4 中展示了训练和测试中使用的物体。

我们在每个任务的几个不同场景(例如不同的物体和干扰项)上对每个模型进行评估,每个场景运行 5 次不同的试验。我们通过使用 Meta Quest 2 VR 头显进行遥操作,收集了 26866 个轨迹的数据集。每个轨迹都用模板化的语言指令进行标注。两个抓取任务(桌面抓取和购物袋抓取)包含视觉、触觉和动作数据,而按钮按压任务还包括声音数据。视觉观测的分辨率为 640×480,而 DIGIT 图像的分辨率为 320×240。我们遵循先前的工作,从触觉观测中减去静态的 “背景” 图像,以突出与零变形状态的偏差,并减少不同 DIGIT 实例之间的系统差异。音频观测包含最近 1 秒的麦克风采样,采样频率为 44100Hz。我们在图 3 中展示了机器人的感官设置。

评估任务

我们设计了一组具有挑战性的任务,重点测试策略在零样本设置中对视觉、声音和触觉进行联合推理的能力:

  1. 桌面抓取:我们设置了一个简单的桌面抓取场景,多个物体放置在托盘上,任务是根据文本指令抓取正确的物体(例如,拿起胡萝卜)。
  2. 购物袋抓取:这个环境呈现了一个更复杂的抓取场景,物体放置在纸袋内。这种场景通常会导致第三人称视角摄像头的遮挡,并且当夹爪进入袋子时,手腕摄像头的光照条件也很差。因此,这代表了一个视觉部分可观测的环境。
  3. 按钮按压:在这个环境中,我们利用声音模态,有六个发声按钮,每个按钮在按压时会发出不同的声音。目标是根据提示按下正确的按钮,提示可以是与视觉或音频相关的命令(例如,“按下红色按钮”“按下播放钢琴声音的按钮” 等)。

我们还在按钮按压设置中设计了两个多模态组合推理任务,目标要么是抓取与其中一个按钮具有相同视觉特征的物体(例如,“抓取与播放钢琴声音的按钮颜色相同的物体”),要么是在训练按钮中按下与未见过的按钮发出相同声音的按钮(例如,“按下与蓝色按钮发出相同声音的按钮”)。

微调性能

我们研究了多模态微调方法的优势,该方法使用 Octo 通用策略对模型进行初始化,Octo 在大型 OXE 机器人数据集上进行预训练。首先,我们通过将模型性能与具有相同架构但从头开始训练的模型进行比较,来探究预训练是否必要。图 5 中的结果显示,两个模型之间存在很大差距,这表明在没有我们的微调方法的情况下,仅在我们的多模态数据集上从头开始训练 Octo 具有挑战性,因为数据集规模有限。相比之下,我们的方法利用了预训练期间获得的知识,并且可以通过少量额外数据适应新的任务和模态。最后,我们与基于 ResNet 的基线进行比较,在该基线中,语言指令通过 FiLM 条件输入,如文献所述。较小的 ResNet26 模型的性能略优于从头开始训练的 Octo 模型,但在所有三个任务上仍显著低于我们的模型。

为了验证新模态对微调性能的影响,我们与仅使用可用的预训练模态(即视觉和动作)对 Octo 进行微调的方法进行比较。图 5 中的结果表明,该基线在较简单的任务(桌面抓取和按钮按压)上具有竞争力,但在购物袋任务上明显不如我们的模型。在购物袋任务中,当夹爪进入购物袋时,视觉遮挡使视觉特征的判别力降低。

多模态提示

除了提高微调性能外,我们的训练方法还为模型提供了额外的多模态能力,例如提供多模态提示的可能性,这种提示不仅可以基于视觉特征,还可以基于其他模态(如触觉或声音)成功地区分物体。评估提示包含多个实例,其中任务是抓取一个用单一模态描述会有歧义,但用另一种模态描述则唯一的物体(例如,“抓取柔软的圆形物体”,场景中同时有泡沫球和揉皱的纸球)。抓取任务的结果如表 1 所示,场景中分别呈现了具有相同视觉和触觉特征的物体。该实验表明,我们的策略可以结合多模态指令,改善模糊描述的情况。

组合能力

最后,我们在按钮按压环境中通过两个不同的组合任务展示了模型的组合能力:

  1. 在一个较简单的任务中,我们提示模型抓取与发出特定声音的训练按钮颜色相同的物体(例如,“抓取与播放钢琴声音的按钮颜色相同的物体”)。
  2. 在一个多步骤任务中,我们利用生成头部连接不同的子任务。首先,我们仅使用视觉指令提示模型按下训练时未见过的按钮(例如,“按下蓝色按钮”)。然后,我们将产生的声音输入生成头部,生成与相应音频相关的指令(例如,“按下播放钢琴声音的按钮”)。最后,我们在训练环境中用音频指令提示模型,此时模型已经将按钮的视觉线索与相应声音关联起来,并且会执行一个轨迹,最终按下与第一个子任务中按下的按钮发出相同声音的按钮。

我们在图 6 中报告了定量结果,结果表明,即使在简单的组合任务中,FuSe 也利用其多模态推理能力优于所有基线。对于多步骤任务,我们将其与在所有可用传感器上从头开始训练的 Octo 模型以及具有相同辅助损失的模型进行比较。再次,FuSe 在完整任务完成方面表现更优,超过了基线模型。实际上,从头开始训练的模型在语言基础方面表现较差,无法成功完成基于音频的指令。

消融研究

我们在购物袋任务中对 FuSe 的不同辅助损失进行消融研究,该任务具有部分可观测的视觉场景。图 7 显示,同时包含这两种损失是充分利用机器人上可用的异构反馈的关键,对于未见过的测试对象,基线模型的性能尤其下降。

视觉 - 语言 - 动作模型结果

我们还研究了 FuSe 对基于现成的视觉 - 语言 - 动作(VLA)模型的替代通用策略进行微调的有效性。我们没有使用 Octo,而是微调了一个 30 亿参数的视觉语言模型,以获得一个能够产生机器人动作和语言基础的 VLA 模型。我们使用 PaliGemma VLM 作为骨干网络,但对其进行了修改,以便以类似于 Octo 的方式轻松整合任意观测模态(与其他 VLA 模型如 OpenVLA 不同)。这类模型还能够直接纳入 FuSe 的生成语言建模损失,而无需额外的语言模型头部,统一了动作预测和基于语言的特征学习的实现。我们首先在仅包含视觉模态的 OXE 数据集上进行预训练,然后在我们的包含所有传感器模态的数据集上进行微调。我们注意到,与使用原始 PaliGemma 的权重相比,OXE 预训练通常会改善低级抓取能力。然而,在预训练阶段对 OXE 的过度训练似乎会损害策略的语言理解能力。我们选择在对我们的多模态数据集进行微调之前,在 OXE 数据集上预训练 50,000 步的检查点。我们在图 8 中展示了结果,其中 VLA FuSe 策略与其基于 Octo 的对应策略具有竞争力,并且在具有挑战性的购物袋任务上表现更优,证明了 FuSe 在不同策略骨干网络上的有效性。

据我们所知,VLA FuSe 是第一个在异构(非视觉)感官输入上进行微调的开源 VLA 模型。

#地平线SuperDrive实问实答

近日,地平线SuperDrive智驾百人团体验活动圆满落幕,现场130余家媒体对地平线SuperDrive表现出浓厚的兴趣并提出了诸多问题。对此,地平线特意整理了大家提出的典型问题并进行解答,希望能帮助大家更全面地了解这套拟人的智能驾驶系统。​

Q: 地平线SuperDrive的HMI(人机交互界面)在设计上有什么特点?实际作用是什么?

地平线SuperDrive的人机交互追求自然、直观、可信赖,沉浸式还原计算机理解的现实世界。系统不仅能实时重建静态环境,还原预测交通参与者的运动轨迹,还可以识别小动物、交警、文字路牌等人类世界里多变的交通元素,大大提升驾驶员的信任度和安全感。​

Q:地平线SuperDrive是端到端吗?

地平线SuperDrive的智能驾驶解决方案采用了端到端+多模态大语言模型的VLA架构。这种创新设计融合了端到端自动驾驶模型对物理世界精准的「空间感知能力」和多模态大语言模型的「常识理解优势」。

端到端部分实现了无需高精度地图的道路结构精确识别,而常识系统则增强了对复杂场景的理解和决策能力,如应对多元化交通规则和风险场景预判。我们致力于通过这种双系统架构,为用户提供更安全、更智能、更高效的驾驶体验。​

Q:地平线SuperDrive的城市漫游功能是什么?有什么优势?

在城区和园区场景下,地平线SuperDrive都可实现城市漫游。

  • 园区漫游:允许车辆在到达目的地后继续自主行驶,结合后续的泊车功能可实现无需记忆建图的车位到车位全场景智驾体验;
  • 城区漫游:支持“未设置导航目的地”的情况下,基于用户指令或系统默认策略,以NOA状态自行进入无目的漫游模式,智驾系统不会功能降级或退出。在保障安全的前提下,大幅提升用户的便利性与驾驶体验。

漫游能力提升了车辆在未知环境中的适应性,使其能够应对突发情况和不规则的交通状况,而无需完全依赖于预设的导航系统,拉升了智驾产品的想象空间。​

Q:在复杂狭窄的城市道路掉头时,地平线SuperDrive如何保证安全和高效?

地平线SuperDrive首发国内融合倒车能力的城市NOA,支持“三点式”、“五点式”及“N点掉头”。这一技术通过先进的全局感知系统、精准的路径规划算法以及灵活的横纵向控制,能够在狭窄路段甚至死胡同中实现自动掉头,避免碰撞隐患,实现城区路口无死角通行。​

Q:在交通拥堵时,系统如何智能规避拥堵、提高出行效率?

城市交通拥堵尤其是早晚高峰,是一个十分让人头疼的问题。除了提高单个场景的通行效率,地平线SuperDrive还创新性地融合了导航信息并进行实时路况分析,帮助用户规避拥堵路段,选择更加畅通的道路,从而高效地通行和通勤。​

Q:系统是基于地平线的征程6计算方案吗?

地平线SuperDrive将采用地平线自研的征程6P计算方案,专为自动驾驶设计,其算力可达560TOPS。征程6P采用“神经网络+规则引擎”的混合架构,支持端到端大模型及时下流行的前沿算法如VLM、VLA。​

Q:地平线SuperDrive的安全性能如何保障?

地平线SuperDrive为用户驾驶提供全时守护和全场景安全兜底。

  • 一方面,地平线SuperDrive为用户提供全时守护。系统采用类人性的预防性驾驶,能在人的预判之前完成动作,实现提前规避风险。这种全时守护让用户即便在疲劳驾驶等状态下,也能放心地让系统接管驾驶。
  • 另一方面,系统提供全场景安全兜底。地平线正在努力将系统的紧急接管安全性提升100倍。通过「一段式端到端」和「数据驱动+工程师经验」融合的系统设计,提升拟人上限的同时保障安全底限,以此来应对中国复杂的道路环境,确保系统能在各种情况下为用户提供可靠的驾驶体验。

Q:地平线认为智能驾驶的拐点将何时到来?

地平线认为,技术创新迎来了跃变 ,智能驾驶行业将在2025年迎来真正的拐点 ,未来三年智能驾驶大局可定。

⾯对三年决胜期 ,地平线立两个flag:向上捅破天,地平线SuperDrive在2025年量产落地 ,征程6P计算性能是名副其实的「六代机」 ,为⾏业打造新标杆;

向下扎深根,地平线智驾方案跨越1000万量产⼤关。地平线将保持健康的商业落地 ,继续联合车企和合作伙伴 ,让智驾创新生态繁荣生长,让消费者放心把驾驶交给地平线 、把生活还给自己。​

Q:地平线认为好的系统要足够类人,那么地平线SuperDrive在这方面的进展如何?

地平线副总裁兼首席架构师苏箐在畅想日发言中表示,地平线SuperDrive在与人类司机的竞争中正处于关键突破阶段,但尚未完全超越人类驾驶水平。当前阶段,地平线SuperDrive正致力于实现两个重要突破——

  • 用户无感。通过端到端的类人性驾驶,使系统能在人类预判之前完成动作,做到行驶过程中用户“完全没有感觉”。
  • 将紧急接管安全性提升100倍。目前系统正在从“依赖人类”向“人类依赖系统”转变,目标是让疲劳驾驶等不安全状态下的用户能够放心地让系统承担驾驶任务。

余凯博士在近期的发言中强调了2025年将是智能驾驶的真正拐点。地平线的目标是推动智驾实现:3年脱手开( hands off),用户可以放开双手让汽车自己行驶,仅需处理突发情况;5年闭眼开(eyes off),用户不必时刻关注路况 ,更智能、更安全;10年随心开( minds off) ,用户可以完全不用开车,实现完全的自动驾驶。

技术的跃变已经开始,领先的算法、强大的算力和海量的数据为智能驾驶的普及奠定了基础。余凯博士呼吁业界共同努力,突破现有的技术边界,推动智能驾驶的平权化,让每一个人都能享受到安全、便捷的出行体验。未来,地平线将以更高的标准和更坚定的信念,继续在智能驾驶领域开拓进取,致力于让每个用户的生活更加美好。

图片

#明星自驾公司纵目科技接近倒闭

太突然、太可惜!

其实,提笔写纵目科技的“负面”信息,还是蛮纠结的。之前有很多人找过来,小汤都拒绝了。

因为熟悉小汤的朋友,都知道纵目是小汤的第一份正式工作,从21年4月1日到24年11月6日,接近4年时间,感情还是蛮深的。

这四年,对纵目、对小汤而言,都发生了很多变化。

对于小汤个人,先后经历了实习、毕业、落户上海、买房、结婚、生宝宝等几件传统世俗观念中及其重要的人生大事。

也包括因为买房而负债累累、背负几百w房贷、拼命省吃俭用攒钱还贷的日子。。。

对于纵目,21年成为资本的宠儿,迎来高光时刻,先后获得多轮融资,投资方包括小米、联想集团、高通等。纵目的估值也一度接近百亿,先后冲击科创板、港股,目标从一开始的“自动驾驶第一股”到后面的“自动驾驶泊车第一股”。。。。

可惜,命运弄人。也没有“如果”,就是走到了今天这一步,哪怕很突然、很快,突然得让人猝不及防,包括在职和离职员工。

2月7日纵目内部工作群正式发布消息:2月8日18:00后办公区域开始断电并封楼;要求在职员工尽快取走自身物品及办理离职手续。

结合年前、年后的一些报道,相信外人也知道这则消息意味着啥,意味着纵目几乎很难再站起来了。

年前、年后,也一直有关心纵目的朋友联系小汤,询问一些情况,每次小汤都是希望能听到好消息,例如新的融资到账、小车销量上去了、被收购了。但当昨天新公司同事给我发来下面的消息的时刻,真的是惊住了,一下子无话可说,只是觉得可惜、太可惜了。。。。

小汤年前也陆续帮几个联系小汤的朋友介绍了新去处,包括也有入职小汤新公司魔视智能的。不管怎么样,希望还没有找到新去处的朋友都能尽快找到合适的offer。前面的欠薪、社保公积金、股票期权等问题也能得到妥善解决,能像极越汽车那样最好,给一定的赔偿金。

昨天也有同事调侃地说:小汤你走是幸运的,赶上了好时机。

是的,现在看来,小汤确实是不幸中的万幸了。9月底听朋友说资金有问题,加上组织架构调整,于是国庆假期更新了简历,然后在国庆后集中投递、面试了几家,当然也很感谢同行朋友的推荐介绍,使得小汤能比较快地找到工作。

10月底提了离职,11月6号是最后一天。因为前面部门领导变更,我帮忙过渡了一个月左右的时间,已经把自己的大部分工作都交接出去了,所以交接的比较快。

然后11月7日就入职了新公司,开始了下一阶段的新工作。

之前10月的工资、11月的工资、20天加班等该发的工资,虽然有延迟,但在12月底都打给我了。

但2023年、2024年的年终奖都打水漂了,不可能再发了,也是损失蛮严重的,因为过去一年我经济上压力特别大,一直是月光,每个月工资一到手就去还消费贷。

不管怎样,非常感谢纵目给了小汤一份还可以的工作,工作能力和经验都得到了快速积累,包括宝贵的项目量产经验,也结识了很多关系很好的优秀同事,给了小汤很多帮助,包括生活上的帮助,例如峰哥、继征哥、伟伟姐、范博、仝硕等(还有很多其他部门的,不一一列举了,大恩不言谢)

希望纵目和蚕丛机器人,或者传说的“新公司”也好,能够站起来,能度过这次难关,重整旗鼓,把这个成立了12年的牌子继续留下去也把还未结算清的员工的欠款都尽快处理好!!

写在最后

2024年的市场是卷的,在汽车和自动驾驶领域,伴随着一轮又一轮的“卷价格”,无论是主机厂还是Tire1/Tire2,绝大部分都不太好过,不时或传出或证实进行裁员,当然最近有不少公司成功完成了IPO上市和融资,还有多家在IPO积极排队中。但是争相上市和融资的背后逻辑是啥呢?相关从业者都一清二楚。

#Click-Calib

还在为鱼眼相机标定头疼?Click-Calib横空出世,ADAS系统福音!

导读:

本篇提出了一种用于鱼眼环视系统的无模式外参标定方法Click-Calib,它易于使用且无需任何特殊设置,并且在短距离和远距离处均能提供高精度。此外,它对关键点高度噪声具有鲁棒性。在内部数据集和公开的WoodScape数据集上的评估表明,与基线方法相比,Click-Calib具有更高的精度和鲁棒性。

论文标题:Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems

论文作者:Lihao Wang

论文地址:​​https://arxiv.org/pdf/2501.01557​​

代码链接:https://github.com/lwangvaleo/click_calib

本文介绍了Click-Calib:一种鲁棒的环视系统外参标定方法。环视系统(SVS)是高级驾驶辅助系统(ADAS)的重要组成部分,它需要精确的标定结果。然而,传统的离线外参标定方法既繁琐又耗时,这是因为它们严重依赖于物理模式。此外,这些方法主要注重于车辆周围的短距离区域,这导致更远区域中的标定质量较差。为了解决这些局限性,本文提出了Click-Calib,这是一种用于离线SVS外参标定的无模式方法。该方法无需任何特殊设置,用户仅需要点击自然场景中地面上的一些关键点即可。与其它离线标定方法不同,Click-Calib通过最小化关键点的重投影距离误差来优化相机位姿,从而在短距离和远距离处实现精确标定。此外,Click-Calib支持单帧和多帧模式,后者提供了更好的结果。本文在内部数据集和公开的WoodScape数据集上的评估表明,与基线方法相比,Click-Calib具有更高的精度和鲁棒性。  

基于相机的SVS是ADAS和自动驾驶的关键组成部分。它们广泛用于鸟瞰图(BEV)图像生成、泊车辅助和3D感知。典型的SVS由四个环绕车辆安装的宽视角鱼眼相机组成,它们提供了360°的覆盖范围,如图2所示。

图片

▲图1| 由四个鱼眼相机组成的环视系统(SVS)

图片

▲图2| 基于模式和基于光度方法的示例©️

本文提出了Click-Calib,这是一种简单而鲁棒的SVS外参标定方法(如图1所示)。

图片

▲图3| 本文所提出的Click-Calib

本文的贡献为如下三方面:

1)本文提出了Click-Calib,这是一种无需特殊设置或者标定模式的SVS外参标定方法。与其它需要从鱼眼到透视图像去畸变的鱼眼标定方法不同,它直接从原始鱼眼图像中优化标定参数,从而避免信息损失;

2)本文证明了光度误差不太适用于反映远距离BEV图像的质量。相反,本文引入了平均距离误差(MDE)作为更精确的度量方式;   

3)本文方法在三种不同的车辆上进行评估。与其它离线标定方法相比,Click-Calib展现出显著的改进,特别是在远距离处。其它实验还证明了它对环境不确定性(例如每个关键点的高度变化)的鲁棒性。

■ 3.1.  符号和术语

本文使用表示空间中的3D点,使用表示图像中的2D点(即像素坐标)。上标用于表示坐标系。例如,表示相机的2D图像中的像素,表示相机坐标系中的3D点。

■ 3.2.  鱼眼相机模型

自1906年发明鱼眼相机以来,其大视场(通常≥180°)在监控、增强现实,特别是汽车应用中得到广泛使用。与将3D点线性映射到2D图像的针孔相机不同,鱼眼相机产生的图像具有明显的径向畸变,特别是在图像边界附近。

为了描述鱼眼透镜的强径向畸变,本文提出了若干种几何模型。这些模型可分为四类:经典几何模型、代数模型、球面模型和其它模型。为了便于实现投影函数,本文采用了代数模型。具体而言,本文使用四阶多项式:

图片

其中,表示入射角,表示图像半径(像素)。系数至是从内参标定中获得的畸变参数。图4展示了鱼眼投影,并且将其与针孔相机模型进行比较。

图片

▲图4| 鱼眼相机模型

四阶多项式的解析解很复杂,因此在实践中经常使用Newton-Raphson方法等数值方法。求解的仅提供射线方向,因为在2D到3D映射过程中无法恢复深度信息。重投影射线的简单表示是其与单位球面的交点,因此:

图片

其中,

以及,

和为图像中心的像素坐标。任何3D点可以表示为:

图片

其中,尺度因子为点的深度。

■ 3.3.  相机-车辆投影

上述鱼眼相机模型描述了2D鱼眼图像和3D鱼眼坐标系之间的变换。为了获得车辆坐标系中的3D点坐标,这里讨论了相机-车辆投影。为了简化线性变换,使用齐次坐标。因此,2D 和3D 分别扩展为和。从到的齐次变换矩阵(也称为外参矩阵),由下式给出:

图片

在该矩阵中,向量表示平移,描述了在中的位置。表示旋转矩阵的元素,其描述了相对于的姿态。可以通过四元数计算:

图片

其具有将旋转自由度降低到3的约束:

通过,对于车辆坐标系中的点,其在相机坐标系中的对应点由下式计算:

类似地,也可以由计算:

结合上述公式:

图片

由于存在尺度因子,仅决定一条射线。然而,本文仅考虑地面点,因此:

其中,是中的地面点。这里,,因为车辆坐标的原点是位于地面上的。通过这一约束,尺度因子可以被唯一确定,然后可以通过计算得到。

■ 3.4.  优化

优化目标是确定每个相机的位姿,该位姿由6个参数组成:平移向量中的三个参数和四元数确定的三个旋转参数。如图2所示,SVS包含四个相机、、和。对于一对相邻相机和,如果它们均能看见地面点,则两个相机的重投影距离误差为:

图片

其中,表示欧式范数,为上述公式确定的地面投影函数,和分别为在和中的像素坐标。然后,通过最小化如下目标函数,可以获得SVS标定的最优估计:

其中,为从所有相邻相机对中选择的关键点的总数。

本文采用Broyden-Fletcher-Goldfarb-Shanno(BFGS)算法作为求解器,因为它在非线性优化中很有效。然而,由于问题是非凸的,因此BFGS等迭代方法很容易陷入局部极小值。为了解决这个问题,Click-Calib需要合理的初始值,特别是对于旋转参数。在实践中,这个初始值可以很容易地从每个相机的名义位姿中获取,也可以通过人工调整BEV图像来获得。       

■ 3.5.  尺度模糊

尽管所提出的方法要求选择的地面点数量超过未知参数的数量,但是尺度模糊仍然存在(图5)。

图片

▲图5| 尺度模糊

为了解决这个问题,在优化过程中需要固定三个平移参数中的一个。在实践中,每个相机的高度被选为固定参数,因为它们易于测量。   

■ 4.1.  实验设置

所提出的Click-Calib在两个数据集上进行测试:内部数据集(由两辆车采集,在以下部分称为汽车1和汽车2)和公开数据集WoodScape数据集(由一辆车采集)。所有这三辆车均装载四个鱼眼SVS相机,它们提供了自车周围360°的覆盖范围,相邻相机之间具有重叠区域,如图2所示。数据集中的图像分辨率为1280×800,而WoodScape数据集中的图像分辨率为1280×966。为了避免高速行驶时的图像不同步问题,这里仅考虑车速低于30km/h的图像帧。采集的图像涵盖了三个关键场景(室内泊车、室外泊车和城市驾驶),以证明所提出方法的鲁棒性。

对于每辆汽车,用于标定的帧被称为标定集(类似于机器学习中的训练集),用于评估的帧被称为测试集。在标定集和测试集中的鱼眼图像均是从连续图像序列中随机选择的。对于内部数据集中的汽车,首先使用基于模式的传统方法来标定SVS相机,该方法作为与Click-Calib比较的基准。对于WoodScape数据集中使用的汽车,将提供的标定结果作为基准。

在Click-Calib标定过程中,在每张SVS图像中手动选择关键点。为了确保优化后的标定结果在不同距离处维持高精度,每个重叠区域中至少需要选择10个关键点。   

对于定量结果,本文使用逆透视映射(IPM)技术来生成BEV图像。IPM广泛应用于自动驾驶应用中,例如车道和停车位检测。假设世界是平的,它通过将相机图像投影到地面上来生成BEV图像。为了清晰地展示标定重投影的质量,叠加了每个相机重投影的所有像素。该可视化方法提供了一种直观的方法来评估标定精度,不精确的标定会导致BEV图像中出现严重的"重影"效应。

■ 4.2.  指标

为了评估标定质量,最近关于SVS标定的工作使用光度误差(也称为光度损失)作为指标。它衡量了两张BEV图像之间所有像素的强度差。一对相邻相机和的光度误差定义为:

其中,和分别为相机和生成的BEV图像。

然而,光度误差存在两个主要的局限性。首先,SVS图像由不同的相机拍摄,光照和曝光各不相同。即使对于良好对齐的图像,这些差异也会导致较高的光度误差值。其次,IPM生成的大范围BEV图像通常包括地面上的目标(例如汽车和墙壁),这些目标在不同的相机视图中无法正确对齐。这种误对齐也会导致明显的光度误差。   

为了解决光度误差的局限性,本文采用平均距离误差(MDE)指标。具体而言,对于每张评估图像帧,随机选择地面上的个关键点(被固定为20),然后计算平均重投影距离误差。与光度误差不同,所提出的MDE对于相机属性和非平面目标具有不变性,因此可以对BEV图像质量进行公正评估。光度误差和MDE的比较如图6所示。

图片

▲图6| 指标比较

本文首先仅使用一帧作为标定集来执行Click-Calib。结果如表格1所示。

图片

▲表1| 在不同距离处单帧标定结果的MDE(米制)

图片

▲图7| 远距离关键点示例

图片

▲图8| 定性结果■ 4.4.  多帧标定

尽管所提出的方法已经可以仅使用一帧提供高质量的标定结果,但是也能使用多帧进行标定,以缓解单帧标定潜在的过拟合问题。

该实验在汽车1上进行。从连续的图像序列中,随机地选择帧(其中的范围从1到5)作为标定集,测试集与上一节相同。结果如表格3所示。

图片

▲表2| 多帧标定结果

MDE在使用三帧时明显降低,并且在使用三帧以上时稳定。这种改进可以归因于两个主要因素。首先,额外的帧提供了更多的关键点以及自车周围更广泛的覆盖范围,从而降低了仅使用一帧的过拟合效应。其次,更多的帧还有助于平滑地面的不平坦区域,从而实现更精确的标定结果。

■ 4.5.  鲁棒性测试

实际上,地面并非完全平坦的,这意味着的假设并不总是成立。关键点的高度误差会在优化后的标定结果中引入误差。为了量化这个误差,一种直接的解决方案是精确测量每个关键点的高度。然而,该过程非常耗时,需要昂贵的设备。因此,使用仿真来估计该误差。国际平整度指数(IRI)是衡量道路平整度的最常用指标。它被定义为在给定行驶距离内测量的标准参考车辆相对于平坦道路的累积垂直位移。IRI值通常以米/公里(m/km)或者英尺/英里(in/mi)来表示。对于铺平的道路,IRI的范围在1.5至6m/km之间。本文采用最糟糕的场景6m/km作为道路不平整度进行误差估计。关键点的选择限制在自车周围±20m范围内,因此,对于自车的每一侧,高度的最大变化为:

图片

该仿真使用单帧标定在汽车1上进行。本实验关注两个典型场景:斜坡情况和随机情况。为了简化分析,假设自车的四个车轮形成的平面是完全水平的。在斜坡情况下,自车被两侧高度为的斜坡围绕。在随机情况下,车辆停在颠簸的道路上,地面上每个点的高度随着随机噪声变化,最大可达(如图9所示)。

图片

▲图9| 鲁棒性测试设置

鲁棒性测试的结果如表格2所示。

图片

▲表3| 鲁棒性测试结果

本文提出了Click-Calib,这是一种用于鱼眼环视系统的无模式外参标定方法。该方法仅需在相邻相机重叠区域的地面上点击几下即可实现精确标定。与传统的基于模式的方法和最近的基于光度的方法相比,Click-Calib具有三个主要优势:(i)它易于使用且速度较快,并且无需特殊设置;(ii)它在短距离和远距离(大于10米)处均能提供高精度;(iii)它对关键点高度噪声具有鲁棒性。这些特征使其特别适用于最近流行的基于BEV的感知方法。 

局限性和未来工作:尽管Click-Calib在所有距离处均能提供可靠的标定结果,但是它受到某些限制。首先,它仅在车辆静止或者低速(低于30km/h)行驶时有效。其次,它需要手动点击,这对用户而言可能较为繁琐。因此,它被设计用于小批量汽车的离线标定,而不是大规模量产。为了将其转换为更通用且全自动的方法,未来工作将着重于自动关键点选取,并且将关键点从地面扩展到整个3D场景。  

  

#DeepSeek有没有机会重塑智能驾驶

论文题目: A Comparison of DeepSeek and Other LLMs
论文链接:https://arxiv.org/pdf/2502.03688​

写在前面 && 笔者理解

春节期间,最火爆的两个关键词,一个是“哪吒”,另一个便是一款大语言模型DeepSeek(DS)。它的最新版自从2025年1月20日发布以来,轰动了整个AI行业,迅速登上了各大新闻和社交媒体的头条,冲上了苹果商店的下载榜首,令投资者惊叹不已,甚至导致包括Nvidia在内多个科技股下跌。

其火爆的原因简单来说就是:它用较小的训练成本,在一些基准任务中,取得了与人工智能行业的大玩家(例如OpenAI的ChatGPT)相同甚至更好的结果。比如:作者展示了在从MATH数据集中衍生的30多个复杂的数学问题上,DeepSeek-R1在这些复杂问题上取得了比ChatGPT和Gemini等更高的准确性。

而在2025年的今天,市面上大语言模型层出不穷,各大公司都有自己的模型,并都大肆宣传自己模型的优势。这篇论文,作者就从两个有趣的任务来对比DeepSeek-R1与其他4种具有代表性的LLM的结果:OpenAI的GPT-4o-mini(GPT)、Google的Gemini-1.5-flash(Gemini)、Meta的Llama-3.1-8b(Llama)和Anthropic的Claude-3.5-sonnet(Claude)。

在介绍完作者工作的最后,笔者也会在文章的末尾和大家聊一聊DeepSeek的火爆对未来自动驾驶技术以及行业的发展会有什么影响。​

任务介绍

这篇论文,作者从两个任务来评价LLM的表现:

  • 作者身份分类(AC):判断文档是人类生成的(hum),还是人工智能生成的(AI),或者是人类生成但经过人工智能编辑的(humAI)。
  • 引文分类(CC):给定一个(学术)引文及其周围的短文本,判断引文的类型。

作者身份分类

在过去的两年中,人工智能生成的文本内容开始迅速传播,影响了互联网、工作场所和日常生活。这引发了一个问题:如何区分人工智能创作的内容与人类创作的内容?这个问题是非常值得关注的,首先,人工智能生成的内容可能在医疗保健、新闻和金融等领域包含有害的错误信息,而这些虚假和误导性信息的传播可能会威胁在线资源的完整性。其次,了解人类生成内容与人工智能写作内容之间的主要差异,可以显著帮助改进人工智能语言模型。

作者通过考虑两种分类设置来解决这个问题,即AC1和AC2:

  • (AC1):在第一种设置中,作者专注于区分人类生成的文本和人工智能生成的文本(即hum与AI)。
  • (AC2):在第二种设置中,作者考虑更微妙的区分人类生成文本和经过人工智能编辑的人类生成文本(即hum与humAI)。

对于实验,作者提出了一种通用方法,使用LLM和MADStat(一个大规模的统计出版物数据集)为作者的研究生成新的数据集。作者首先选择几位作者,并收集这些作者在MADStat中发表的所有论文。对于每篇论文,MADStat包含标题和摘要。

  • (hum):作者将所有摘要作为人类生成的文本。
  • (AI):对于每篇论文,作者将标题输入GPT-4o-mini,并要求其生成一个摘要。作者将这些摘要作为人工智能生成的文本。
  • (humAI):对于每篇论文,作者还要求GPT-4o-mini编辑摘要。作者将这些摘要作为humAI文本。

引文分类

当一篇论文被引用时,该引用可能是重要的,也可能是不重要的。因此,为了评估一篇论文的影响,作者不仅对论文被引用的次数感兴趣,还对其重要引用的次数感兴趣。问题是,虽然比较容易统计一篇论文的原始引用次数(例如通过谷歌学术、Web of Science),但不清楚如何统计一篇论文的“重要”引用次数。为了解决这一问题,注意在引用实例周围通常有一段短文本。该文本包含有关引用的重要信息,作者可以利用它来预测引用的类型。这引发了引文分类问题,目标是利用引用周围的短文本预测引用类型。

首先,在回顾了许多文献和实证结果后,作者提议将所有学术引用分为以下四种不同类型,将这四种类型分别编码为“1”、“2”、“3”和“4”:

  • “基本思想(FI)”
  • “技术基础(TB)”
  • “背景(BG)”
  • “比较(CP)”

其次,经过大量努力,作者从头开始收集了一个新的数据集,作者称之为CitaStat。在这个数据集中,作者下载了1996年至2020年期间统计学领域4本代表性期刊的所有论文的PDF格式,并手动为引用打上标签。

现在作者可以使用这个数据集来比较上述5种LLM在引文分类中的表现。作者考虑两个实验:

  • (CC1):一个4分类实验,作者直接使用CitaStat,不作任何修改。
  • (CC2):一个2分类实验,作者将类别“1”和“2”(“FI”和“TB”)合并为一个新的“S”(重要)类别,将类别“3”和“4”(“BG”和“CP”)合并为一个新的“I”(偶然)类别。

结果与贡献

作者已将所有5种LLM应用于上述四个实验(AC1、AC2、CC1、CC2),并有以下观察结果:

  • 在分类错误方面,Claude始终优于所有其他LLM方法。DeepSeek-R1的表现不如Claude,但在大多数情况下优于Gemini、GPT和Llama。GPT在AC1和AC2中的表现不尽如人意,错误率与随机猜测相似,但在CC1和CC2中的表现比随机猜测好得多。Llama的表现不尽如人意:其错误率要么与随机猜测相当,甚至更高。
  • 在计算时间方面,Gemini和GPT比其他三种方法快得多,DeepSeek-R1是最慢的(DeepSeek的一个较旧版本,DeepSeek V3,速度更快,但表现不如DeepSeek-R1)。
  • 在成本方面,与其他方法相比,Claude对客户来说要贵得多。例如,对于CC1和CC2,Claude的费用为12.30美元,Llama的费用为1.20美元,其他三种方法(DeepSeek、Gemini和GPT)的费用不超过0.30美元。
  • 在输出相似性方面,DeepSeek与Gemini和Claude最相似(GPT和Llama在AC1和AC2中的表现高度相似,但两者的表现相对不尽如人意)。

表1列出了所有5种LLM方法在错误率方面的排名(错误率最低的方法排名为1)。平均排名表明,DeepSeek优于Gemini、GPT和Llama,但不如Claude(注意,对于CC1和CC2,作者使用了DeepSeek的两个版本,R1和V3;表1中的结果基于R1。如果作者使用V3,则DeepSeek与Gemini在平均排名上并列;它仍然优于GPT和Llama)。

图片

总体而言,作者发现Claude和DeepSeek的错误率最低,但Claude相对较贵,DeepSeek相对较慢。

作者的这篇工作有如下贡献:首先,由于DeepSeek在人工智能行业内外都受到了广泛关注,因此有必要了解它与其他流行的LLM相比如何。通过两个有趣的分类问题,作者证明了DeepSeek在使用短文本预测结果的任务中具有竞争力。其次,作者提出了引文分类作为一个有趣的新问题,理解它将有助于评估学术研究的影响。最后但并非最不重要的,作者提供了CitaStat作为一个新的数据集,可用于评估学术研究。作者还提出了一种通用方法,用于生成新的数据集(以MadStatAI为例),用于研究人工智能生成的文本。这些数据集可以作为基准,用于比较不同算法,并学习人类生成文本与人工智能生成文本之间的差异。​

具体实验结果

作者身份分类任务

MADStat包含超过83,000篇摘要,但处理所有这些数据需要花费大量时间。作者选择了一个较小的子集,具体如下:首先,作者将范围限制在MADStat中拥有超过30篇论文的作者。其次,作者从未被抽样的作者池中随机抽取15位作者,每次抽取一位新作者时,作者都会检查他/她是否与之前抽取的作者共同撰写过论文;如果是这样,作者会删除这位作者并抽取一位新的,直到作者总数达到15位。最后,作者收集了这15位作者在MADStat中的所有摘要。这构成了一个包含582篇摘要的数据集。

图片

对于每篇原始人类撰写的摘要,作者使用GPT-4o-mini生成了两个变体。

  • AI版本:作者提供了论文标题,并要求生成一个新的摘要。提示语为:“为这篇具有以下标题的统计论文撰写摘要:[论文标题]。”
  • humAI版本:作者提供了原始摘要,并要求对其进行编辑。提示语为:“对以下摘要进行一些修订。确保不要过多改变长度。[原始摘要]。”

这两种变体均由AI创作,但它们看起来有所不同。AI版本通常与原始摘要有很大差异,因此“人类与AI”的分类问题相对容易。例如,图1的左侧面板比较了人类撰写摘要与AI版本摘要的长度。人类撰写摘要的长度变化很大,而AI生成的摘要长度大多在100到200字之间。humAI版本与原始摘要更为接近,通常只有一些局部的单词替换和轻微的句子重组。特别是,其长度与原始长度高度相关,这可以在图1的右侧面板中看到。

图片

如前所述,作者考虑了两个分类问题:

  • (AC1):一个二分类问题,即“人类与AI”。
  • (AC2):一个二分类问题,即“人类与humAI”。

对于每个问题,有个测试样本,每个类别各占一半。作者将它们输入到每个LLM中,使用相同的提示:“你是一个分类器,用于判断文本是人类撰写的还是AI编辑的。请用一个词回答:如果是人类撰写的文本,回答‘人类’;如果是AI撰写的文本,回答‘ChatGPT’。尽可能做到准确。”

需要注意的是,与分类方法(例如,支持向量机、随机森林(Friedman等人,2001))相比,使用LLM进行分类的一个优势是,作者不需要提供任何训练样本。作者只需要用提示语输入LLM即可。

图片

表3总结了5种LLM的表现。对于“人类与AI”(AC1),Claude-3.5-sonnet的错误率最低,为0.218,DeepSeek-R1位居第二,错误率为0.286。其他三种方法几乎总是预测“人类撰写”,这也解释了为什么它们的错误率接近0.5。对于“人类与humAI”(AC2),由于问题难度更大,可实现的最低错误率远高于“人类与AI”(AC1)。DeepSeek-R1的错误率最低,为0.405,Claude-3.5-sonnet位居第二,错误率为0.435。其他三种方法的错误率接近0.5。总之,Claude-3.5-sonnet和DeepSeek-R1在错误率方面表现最佳。如果还将运行时间考虑在内,Claude-3.5-sonnet的整体表现最佳。另一方面,Claude-3.5-sonnet的成本最高。

由于1164个测试摘要来自15位作者,作者还报告了每位作者的分类错误(即,测试文档仅包括该作者的人类撰写摘要和AI生成的变体)。图2显示了每位作者的错误率箱线图。

图片

由于作者有不同的写作风格,这些图表比表3提供了更多的信息。对于“人类与AI”(AC1),Claude-3.5-sonnet仍然是明显的赢家。对于“人类与humAI”(AC2),DeepSeek-R1的表现仍然最佳。此外,其相对于Claude-3.5-sonnet的优势在这些箱线图中更为明显:尽管两种方法的整体错误率只有轻微差异,但DeepSeek-R1在某些作者上的表现确实更好。

作者还研究了不同LLM所做的预测之间的相似性。对于每对LLM,作者计算了在“人类与AI”(AC1)设置和“人类与humAI”(AC2)设置中对预测标签达成一致的百分比。结果如图3所示。

图片

对于这两种设置,Gemini-1.5-flash、GPT-4o-mini和Llama-3.1-8b彼此之间的一致性极高。这是因为所有三种模型都对大多数样本预测为“人类撰写”。DeepSeek-R1和Claude与其他三种模型不同,它们在两种设置中的相互一致性分别为64%和70%。

引文分类任务

MADStat仅包含元信息和摘要,而不是完整的论文。作者通过下载完整论文并提取引用周围的文本创建了一个新的数据集,即CitaStat。作者随机选择了个,并手动将它们标记为以下四个类别之一:

  • “背景(BG)”(背景、动机、相关研究以及用于支持/说明观点的示例)。示例:“近年来,许多文章讨论了按地理区域(州)和肿瘤划分的当前和未来癌症死亡率的估计,其中包括Tiwari等人(2004年)……”
  • “比较(CP)”(对方法或理论结果的比较)。示例:“确定神经元对数量的另一种方法是遵循Medeiros和Veiga(2000b)以及Medeiros等人(2002年)的方法,使用一个序列……”
  • “基本思想(FI)”(直接启发或为当前论文提供重要思想的先前工作)。示例:“所提出的离散变换生存模型最初是受到Dabrowska和Doskum(1988a)提出的连续广义比率模型以及Zeng和Lin(2006年)的启发……”
  • “技术基础(TB)”(重要的工具、方法、数据集和其他资源)。示例:“作者通过欧拉方法(Protter和Talay 1997;Jacod 2004)数值求解该系统,时间步长为一天……”

有时两个类别可能会重叠。例如,引用了一篇参考文献作为提供基本思想的文献,同时在同一句子中也进行了比较。在这种情况下,作者将其标记为“基本思想(FI)”,以突出其比一般比较更为重要。有20个引用实例的手动标记结果为“不确定”。作者将其移除,最终获得了个标记样本(见表4)。

图片

有了这个CitaStat数据集,作者考虑了两个问题,如前所述:

  • (CC1):4分类问题:给定引用的文本内容(即引用周围的文本),作者的目标是将其分类为四个类别之一。
  • (CC2):2分类问题:作者将四个类别重新组合为两个,其中“基本思想”和“技术基础”被视为“重要(S)”,而背景和比较被视为“偶然(I)”。给定引用的文本内容,作者的目标是预测它是否是一个“重要(S)”引用。

对于每种LLM,作者使用提示语来获取分类决策。与前面的作者身份分类问题不同,这个问题中的类别定义不是常识,需要包含在提示语中。在2分类问题中,作者使用图4中的提示语。

图片

它提供了定义、示例以及如何将四个类别重新组合为两个的描述,旨在向LLM传达尽可能多的信息。4分类问题的提示语类似,只是移除了将4个类别组合为2个的描述,并修改了输出格式的要求(见图4)。

作者检查了所有5种LLM的表现。由于DeepSeek-R1的运行时间远长于其他方法,作者仅在149个随机选择的样本上对其进行了实施(这些样本包括所有样本的5%,并保持与完整数据集相同的类别比例),以评估其分类错误率。与此同时,作者在所有样本上运行了DeepSeek-V3,即DeepSeek-R1的一个较早版本。结果如表5所示。

图片

对于4分类问题,Claude-3.5-sonnet的错误率最低,为0.327,紧随其后的是Gemini-1.5-flash,错误率为0.347。DeepSeek-R1的表现优于DeepSeek-V3,但不如其他方法,除了Llama-3.1-8b。对于2分类问题,Claude-3.5-sonnet仍然取得了最佳表现,错误率为0.261。DeepSeek-R1位居第二,错误率为0.275。Gemini-1.5-flash的表现不如DeepSeek-R1,但略优于DeepSeek-V3。总之,Claude-3.5-sonnet在错误率方面获胜。

就运行时间而言,GPT-4o-mini和Gemini-1.5-flash是最快的(尤其是GPT-4o-mini仅花费了15分钟)。DeepSeek-V3和Llama-3.1-8b相对较慢,需要数小时。就成本而言,DeepSeek-V3是最便宜的,而Claude 3.5-sonnet的成本显著高于其他方法。

此外,在4分类设置中,作者根据5种LLM的平均预测错误率(这是5个二元值的平均值;作者排除了DeepSeek-R1,因为作者没有所有样本的结果)将所有样本分为三个组。最低的30%、中间的40%和最高的30%分别被称为简单案例、中等案例和困难案例。表6显示了所有5种LLM在每个组中的错误率。在简单案例中,除了Llama-3.1-8b之外,所有方法的错误率都不到0.01。在困难案例中,所有方法的表现都很差,GPT-4o-mini的错误率最低,为0.832,而DeepSeek V3的错误率最高,为0.956。在中等案例中,Claude-3.5-sonnet的表现良好,错误率为0.177,紧随其后的是Gemini-1.5-flash,其错误率相似,为0.211。Llama-3.1-8b的错误率显著更高,为0.732。

图片

最后,作者研究了不同LLM所做的预测之间的相似性。对于DeepSeek-R1,由于作者仅在5%的样本上对其进行了实施,因此作者将其排除在比较之外。对于剩下的5种LLM的每对,作者计算了在4分类和2分类设置中对预测标签达成一致的百分比。结果如图5所示。

综上所述,DeepSeek在大多数情况下表现优于Gemini、GPT和Llama,但在准确性方面始终不如Claude。此外,DeepSeek的计算速度比其他模型慢,而Claude的成本远高于其他模型。鉴于DeepSeek是一种相对较新的LLM,其训练成本仅为其他LLM的一小部分,作者预计在不久的将来,DeepSeek将显著发展,并可能成为作者研究中最吸引人的LLM方法。​

论文讨论

自2025年1月20日其最新版本发布以来,DeepSeek一直备受人工智能行业内外的关注。研究不同LLM之间的性能差异具有重要意义。在本文中,作者通过两项任务——作者身份分类和引文分类——对DeepSeek与其他4种流行的LLM(Claude、Gemini、GPT、Llama)进行了比较。在这些任务中,作者发现就预测准确性而言,DeepSeek在大多数情况下优于Gemini、GPT和Llama,但始终不如Claude。

作者的工作可以在几个方向上进行拓展。首先,将这些LLM与其他更多任务(例如自然语言处理、计算机视觉等)进行比较将十分有意义。例如,作者可以使用ImageNet数据集(Deng等人,2009)来比较这些LLM,看看哪种AI在分类任务中更为准确。​

DeepSeek对自动驾驶的影响

自从ChatGPT火了之后,AI大模型上车的趋势已经成为车圈的热门话题。如今DeepSeek的热度也如燎原之火,快速蔓延到了汽车领域。截止2月8日,已经有包括吉利、岚图、智己等多家车企相继宣布进入或深度融合DeepSeek大模型,目标就是使其家的车机系统变得更加智能,给每个用户奉上拥有钢铁侠的“贾维斯”的体验。

那么除了给智能座舱系统加上buff之外,DeepSeek在自动驾驶领域上可以带来哪些影响呢?

笔者认为最大影响就是,为自动驾驶系统降低成本起到了积极作用,这也为一些二三线的厂商提供了一些破局的思路。

一方面,它可以帮助减小云端成本。其Transformer框架为基础,融合了多头潜在注意力(MLA)、DeepSeek混合专家模型(DeepSeekMoE)、无辅助损失的负载均衡策略以及多令牌预测(MTP)等核心创新技术,带来了高性能低成本的双重优势。在训练环节,DeepSeek采用自主研发的DualPipe算法,并结合基于FP8数据格式的混合精度训练框架,有效降低了训练过程中的内存需求,显著提升了训练效率。

另一方面,也可以帮助减小端侧成本。在推理能力方面,DeepSeek-R1在DeepSeek-V3基础模型之上,借助大规模强化学习技术强化了推理能力,并成功地将强化学习所赋予的强大推理能力推广至其他领域。此外,通过运用模型蒸馏技术,DeepSeek显著提升了小模型的推理性能。这使得在算力较低的芯片上也可以跑出效果不错的模型。

DeepSeek也可以代替其它的大模型,开发一些自动化标注工具(如半监督学习和主动学习),对图像的数据进行自动标注。通过数据清洗算法(如异常值检测、去噪算法),去除低质量数据。

此外,可以利用DeepSeek的对开放世界理解能力,比如识别训练数据中未覆盖的罕见物体(如特殊工程车辆、动物),从而弥补传统感知模型的长尾问题。还可以帮助描述当前行驶的路况,与驾驶员做交互,对自动驾驶决策做出可解释性的回答,尤其是对于现在主流的端到端的模型架构,是驾驶员也可以“知其然,知其所以然”。

站在2025年初,大模型已经火了两年有余,我们不知道未来会发生怎样的技术革命,但是作为自驾从业人员,我们仍需要保持对前沿技术的热情,永远让“新技术的风刮进自动驾驶圈”

#xxx


http://www.mrgr.cn/news/90217.html

相关文章:

  • 小红书爬虫: 获取所需数据
  • Matlab机械手碰撞检测应用
  • 如何使用DeepSeek帮助自己的工作?
  • Rust语言的计算机基础
  • 正泰中间电磁继电器【8脚10A】DC24V 待机功率
  • 来 Gitcode 免费体验 DeepSeek 蒸馏模型,开启 AI 探索新旅程
  • 2.10..
  • c# http
  • 【CXX-Qt】2 CXX-Qt #[cxx_qt::bridge] 宏指南
  • react redux用法学习
  • 【UVM】寄存器模型
  • DeepSeek-R1:通过纯强化学习提升大模型推理能力,对于真正的强 AI (AGI/ASI),要放弃人类评审,让TA学会自我评估与博弈
  • 【前端】几种常见的跨域解决方案代理的概念
  • 【Mac排错】ls: command not found 终端命令失效的解决办法
  • Cherry Studio之DeepSeek联网/本地,建属于自己的AI助理!
  • Python分享20个Excel自动化脚本
  • 【C++语言】类和对象(下)
  • 大模型推理——MLA实现方案
  • nodejs - vue 视频切片上传,本地正常,线上环境导致磁盘爆满bug
  • DeepSeek模拟阿里面试——java面向对象
  • 以创新技术驱动Creo许可优化,赋能企业高效设计
  • JavaEE架构
  • AutoGen实战应用
  • 防火墙用户认证实验
  • zynq tcp万兆网和ftp协议分析
  • k8s部署elasticsearch