当前位置：首页 > news >正文

MoManipVLA：将视觉-语言-动作模型迁移到通用移动操作

news 2025/3/27 23:12:13

25年3月来自北邮、南阳理工和清华的论文“MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation”。

移动操控是机器人在日常生活中协助人类完成各种任务和环境所面临的基本挑战。然而，传统的移动操控方法由于缺乏大规模训练往往难以在不同任务和环境中泛化。相比之下，视觉-语言-动作 (VLA) 模型的最新进展已表现出深刻的泛化能力，但这些基础模型是为固定基座操控任务开发的。因此，本文提出一个高效的策略自适应框架 MoManipVLA，将预训练的固定基座操控 VLA 模型迁移到移动操控，从而使移动操控策略在跨任务和环境方面实现高泛化能力。具体而言，用预训练的 VLA 模型来生成具有高泛化能力的末端执行器航点。为移动基座和机械臂设计运动规划目标，旨在最大限度地提高轨迹的物理可行性。最后，提出一种高效的双层目标优化框架，用于轨迹生成，其中上层优化预测基座运动的航点以增强机械手策略空间，下层优化选择最佳末端执行器轨迹来完成操纵任务。通过这种方式，MoManipVLA 可以零样本调整机器人基座的位置，从而使从固定基座 VLA 模型预测的航点变得可行。在 OVMM 和现实世界中进行的大量实验结果表明，MoManipVLA 的成功率比最好的移动操纵高出 4.2%，并且由于预训练 VLA 模型具有强大的泛化能力，因此现实世界部署仅需要 50 的训练成本。

移动操控使机器人能够在广阔的空间内执行复杂的操控任务，这需要对移动基座和手臂进行全身控制 [36, 38]。随着智能机器人系统的日益普及，家政服务 [35]、制造业 [28] 和物流 [31] 等多个领域都迫切需要移动操控能力，因为需要机器人自主执行跨空间操控。然而，在非结构化环境中执行各种任务（例如，协助人类日常生活）的要求带来了重大挑战。

传统的移动操控框架，分别训练导航和固定基座操控模块，导致复合误差 [5, 7, 9, 40, 42]。最近的端到端方法联合优化导航和操控动作，但演示的高收集成本限制数据集的规模和泛化 [16, 41]。同时，虽然 VLA 模型在多样化的操控任务中表现出很强的泛化能力 [19, 21]，但是它们专注于固定基座任务，这使得它们无法在移动基座和机械臂之间产生用于移动操控的协同动作。

移动操控框架。移动操控要求智体能够根据人类的指令与大空间中的物体进行交互。现有的移动操控框架可分为两类：端到端和模块化。端到端方法 [2、8、10] 采用模仿学习，根据视觉观察直接预测移动操控动作。Qiu [29] 提出学习一种用于导航和操控的统一场景信息表示，利用几何和语义信息来提高操控的成功率。Yan [37] 利用扩散策略生成移动操控全身控制轨迹，通过不同的能量项控制特定任务的扩散策略生成。然而，使用专家轨迹进行模仿学习会导致昂贵的训练成本 [24]。因此，模块化移动操控框架 Home-Robot [39] 和 OK-Robot [22]，包含基础模型规划器和基于强化学习的控制器，可有效处理长范围移动操控任务。SPIN [33] 建议利用反应式移动操控框架实现主动场景感知，该框架遵循人类的全-身和手-眼协调能力。然而，由于大规模预训练不足，现有的移动操控方法难以泛化到各种现实世界的任务和环境。

视觉-语言-动作模型。目前最先进的 VLA 模型 [12、19–21] 直接根据 RGB 视觉观测输出末端执行器 7-DoF 动作，而不依赖于预测的目标类别和姿势。早期的 VLA 框架遵循视觉-语言模型 (VLM) 架构，使用自回归离散化表示动作。ManipLLM [21] 构建思维链 (CoT) 来刺激基础模型中的操纵推理能力，并进一步引入主动阻抗自适应策略来规划下一个航点。OpenVLA [19] 探索视觉编码器对 VLA 模型性能的影响，该模型结合不同的基础模型组件以实现令人满意的性能。为了进一步增强 VLA 模型挖掘视觉输入和动作轨迹之间的关联能力，TinyVLA [34] 提出先利用基础模型特征来指导动作解码器扩散过程，显著增强 VLA 模型在视点、目标等变化上的泛化能力。近期的研究也探索 VLA 模型在高自由度具身上的能力。RDT-1B [23] 通过引入物理可解释的统一动作空间将扩散策略泛化到双手操作以处理更复杂的任务。π0 [1] 提出一种基于 VLM 的流匹配架构来学习互联网规模的知识，为 VLA 模型的跨具身操作规划提供支持。尽管现有的 VLA 模型在跨任务和环境方面表现出令人印象深刻的泛化能力，但它们无法生成移动基座和机械臂的协同动作。

轨迹优化。在机器人操作任务中，轨迹优化在实现高效、精确的机器人动作方面起着关键作用。早期研究集中于轨迹优化的多目标和约束特性 [3、11、17]，旨在满足动态环境中对准确性和低延迟的要求。手工优化目标将传统方法限制在特定任务中，阻碍它们在动态和复杂环境中的部署。因此，现在使用数据驱动的方法来定制轨迹优化以应对现实世界场景的动态挑战。Contact-GraspNet [32] 和 O2O-Afford [26] 分别通过预测抓取姿势和目标 affordance 来指导密集杂乱场景中的轨迹生成。Michael [6] 开发一种预测 6DOF 目标约束的碰撞模型，有效地解决与点云数据中遮挡相关的挑战。为了利用演示片段中嵌入的知识，一些工作采用模仿学习直接从专家演示中挖掘轨迹策略。Chi [4] 和 Huange [13] 通过从人类或专家演示中模仿学习来训练神经网络生成无碰撞轨迹，从而无需手动定义约束或显式环境建模。受益于基础模型的发展，VoxPoser [14] 和 ReKep [15] 等近期方法已证明，利用基础模型推断场景 affordance 和约束可以显著增强轨迹优化的泛化。

本文 MoManipVLA 是一个有效策略迁移框架，用于将固定基 VLA 模型泛化到移动操作任务。如图所示：

请添加图片描述

移动操控任务要求机器人与不同位置的目标进行交互，协同控制移动基座和机械臂在物理上可行的轨迹上完成交互动作。第 t 步的观察包括视觉输入和本体感受状态。视觉输入包含 RGB 图像、深度图像和相机姿态，本体感受状态包括基座在世界坐标系中的位置 p^t_b 和旋转 r^t_b，以及末端执行器在基座坐标系中的位置 p^t_e、旋转 r^t_e 和夹持器张开度 g^t_e。应用变换函数Γ，获得末端执行器在世界坐标系中的位置 pˆ_e^t 和旋转 rˆ_e^t。基于观察和语言指令，智体需要生成最优动作，以实现移动基座和机械臂的次优本体感受状态，从而完成任务。现有的移动操作框架通常通过模仿专家演示来学习移动操作策略。由于高自由度的移动操作器数据收集成本高，专家演示的规模有限，导致跨任务和环境的泛化能力低。工作目标是有效地将预训练的 VLA 模型策略迁移到移动操作中，从而共同生成移动基座和机械臂的轨迹，以实现高泛化能力。

本文通过具有物理可行性的全身运动规划来迁移预训练 VLA 模型预测的固定底座操控策略。如图展示 MoManipVLA 的总体流程。首先采用预训练的 VLA 模型根据观察和人工指导生成最佳末端执行器航点。为了使末端执行器能够到达目标航点，联合生成具有最高物理可行性的底座和手臂的轨迹。设计运动规划目标，以最大化物理可行性，包括安全性、平滑度和可达性。为了高效地解决轨迹问题，提出一个双层目标优化框架，其中上层优化预测基础运动路径点以增强后续操纵策略空间，下层优化选择最佳末端执行器轨迹以实现 VLA 模型生成的路径点。因此，运动规划框架使预训练的固定基础策略能够以可忽略的训练成本高效地适应移动操纵。

请添加图片描述

运动规划的目的，是在给定末端执行器连续航点的情况下，为移动基座和机械臂生成可行的轨迹，这些轨迹应在整个移动操作过程中实现位姿可达性、轨迹平滑性和安全性。为了增强跨任务和环境的泛化能力，可以通过预训练的固定基座 VLA 模型生成整个移动操作过程中末端执行器在基座坐标系中的第 i 个航点 Q_i，其中按照 VLA 流程考虑当前场景的 RGB 图像和机械臂的本体感受状态。对于轨迹规划，首先将航点 Q_i 转换为世界坐标系，记为 Qˆ_i，如下：

请添加图片描述

因此，优化目标可以表示如下，以在给定连续航路点 Qˆ_i 和 Qˆ_i+1 的情况下生成轨迹：

请添加图片描述

对于轨迹规划，x^t_i,b 表示在第 t 步在世界坐标系中规划的基准姿势，包括位置 p^t_i,b 和旋转 r^t_i,b，x^t_i,e 表示第 t 步在基准坐标系中规划的末端执行器姿势，包括位置 p^t_i,e、旋转 r^t_i,e 和夹持器张开度 g^t_i,e。工作目标是最小化成本函数，使用来自 VLA 模型的航路点来增强整个轨迹的物理可行性，约束表明起始姿势和结束姿势应与航路点一致，以实现轨迹平滑。给定底座和手臂在轨迹中的姿态，通过Pinocchio 的 IK 解算器迭代求解手臂的关节角度，并驱动底座进行平移和旋转。

由于移动操作需要机器人与大范围内的目标进行交互，移动基座的姿态不合适可能导致手臂姿态不可达。因此评估每条候选轨迹的可达性。假设可以通过 N_IK 次迭代获得关节角度的解，可达性成本 F_r 可以表示如下：

请添加图片描述

在最大迭代次数内获得关节角度解，表示轨迹可达。迭代次数越多，IK 解算越慢，意味着关节角度越接近范围极限，在执行移动操作时更容易受到噪声的影响。这表明机械臂的可达性越低。当迭代次数大于预算时，如果没有可行的关节角度解，则无法到达候选轨迹中的姿势。因此，成本将被分配到极高的值。

平滑度约束保持机械臂关节角度和底座平移和旋转的连续平滑变化，避免突然变化以保证电机和装置的安全性。将轨迹平滑度定义为候选轨迹中连续姿势之间手臂关节角度 θ^t 和底座本体感觉的差：

请添加图片描述

利用通过 IK 求解的关节角度进行平滑度约束，而不是手臂本体感觉，因为手臂姿势的微小变化不能保证关节角度的微小差异。

机器人需要避免机器人手臂、移动底座和环境中的目标之间发生任何碰撞，以确保移动操作过程中的安全。利用nvblox [25]根据RGB-D图像计算环境中目标表面的ESDF，并在机器人表面上随机采样 N_q 个查询点来评估碰撞成本：

请添加图片描述

可以预计，机器人与目标表面之间的距离，如果在安全范围内，则可以最大化。否则，轨迹将被视为无碰撞，不会增加成本。
最好将可达性、平滑度和碰撞成本与超参{λ_i}相结合来获得总体目标如下：

请添加图片描述

总之，通过生成物理上可行的轨迹，智体可以充分利用 VLA 模型中跨任务和环境的泛化能力来完成具有挑战性的移动操作任务。

直接搜索如上目标 (6) 的最优解非常复杂，因为移动基座和机械臂的位姿搜索空间非常大并且自由度很高。针对这一问题，提出一个双层轨迹优化框架来提高轨迹生成的效率，其中上层优化基座的航点以增强机械臂的策略空间，而下层进一步优化末端执行器的航点以遵循预训练 VLA 模型的引导完成操控任务。虽然双层优化框架是贪婪的，但是移动操控需要搜索 10 自由度空间（机械臂为 7 个，基座为 3 个），从而导致搜索空间很大并且无法证明是凸的，直接搜索很容易陷入局部最优。

值得注意的是，分解贪婪搜索通常用于其他机器人领域，例如人形机器人控制 [44]，它将 39 自由度的人形机器人动作分解为 27 自由度的上半身和 12 自由度的下半身动作。本文采用双退火搜索算法进行目标优化，其中基于梯度的局部优化器 SLSQP 用于优化解决方案。如下算法 1 演示双层轨迹优化的细节：

请添加图片描述

初始化：根据目标中的约束，轨迹的第一个和最后一个姿势，设置为当前航点和 VLA 模型预测的下一个航点。轨迹中的中间姿势被初始化为连续航点之间等间隔的插值状态。

上层优化：在上层，搜索最佳基础姿势以形成手臂姿势的搜索空间。在双退火搜索算法的迭代更新阶段，仅更新基础姿势以生成轨迹中全身姿势的新候选。对于轨迹中的第 j 个姿势，在给定基础姿势的情况下随机抽取不同的手臂姿势，并使用预期目标和顶-端目标评估搜索空间的质量：

请添加图片描述

候选中预期目标较低的搜索空间表示质量较高，而顶层目标较低则表示候选性能的上限较高。

低级优化：在轨迹中的基础姿势达到最优后，低级优化搜索轨迹中最佳手臂姿势。给定搜索空间，可以通过如上目标 (6) 估计每个候选者的质量。利用给定搜索空间中的最佳候选，作为轨迹中的全身姿势。通过高效的策略迁移，智体在预训练 VLA 模型的指导下实现跨任务和环境的高泛化能力。

开放词汇移动操作 (OVMM) 基准 [39] 包含 60 个近似真实房屋布局的场景模型，以及超过 18k 个日常物体的 3D 模型。OVMM 基准中的移动操作任务，正式定义为“将目标对象从容器 A 移动到容器 B”，其中目标对象是可以被 Hello Robot Stretch [18] 抓取的小物体。机器人在未知环境中初始化，需要按顺序执行“导航到 Recp-A、凝视、拾取物体、导航到 Recp-B 和放置”阶段才能完成移动操作，其中任何一个阶段出现错误都会导致操作失败。使用 OVMM 提供的启发式基线收集移动操作专家轨迹，以微调现成的 VLA 模型来弥合跨具身差距。使用 OpenVLA-7B 生成细粒度的交互轨迹。

具体而言，每个专家轨迹由一系列包含视觉感知、机器人状态和执行动作的元组组成。收集 200 个拾取和放置演示场景，并使用 4 个 RTX 3090 GPU 上的 LORA 高效微调 10K 个 epochs。对于轨迹优化框架，采用双退火来搜索航点之间物理上可行的轨迹。中间步骤的数量是根据航点之间的位置和旋转变化计算的，步长为 0.05。场景 ESDF 由 3D 目标模型构建。遵循 OVMM 基准设置，并利用开放词汇实例分割模型作为视觉感知模块。优化目标中的成本超参数 λ_1、λ_2 和 λ_3 分别设置为 10.0、1.0 和 0.6。碰撞成本中的安全阈值 ε_0 设置为 0.1。

查看全文

http://www.mrgr.cn/news/95854.html