当前位置：首页 > news >正文

具身智能概念及现状

news 2025/7/2 9:00:13

具身智能可以连接网络空间和物理世界，将认知功能与物理实体相结合，是实现通用人工智能的关键。具身智能正以其创新性和实用性，经历从学术界向产业界的转移，更具泛化性、交互性和场景通用性的具身智能体也将进一步拓展机器人的应用边界，打破市场瓶颈。本报告从具身智能的概念内涵切入，回顾了具身智能发展历程，并对发展现状进行了梳理，在此基础上提出了面临的问题挑战及未来趋势。

一、什么是具身智能

根据计算机学会计算机术语评定委员会的定义，具身智能是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

由上定义，具身智能应包括如下基本特征：

具身智能应超越预设逻辑的局限。具身智能需要能够动态适应各种复杂多变的环境，而不是简单地执行预设的、固定的指令或程序。具身智能应具备自主性，面对新场景，可在没有预设逻辑的条件下，通过实时感知和处理，自主决定最优行为策略。

具身智能须具备进化学习机制。进化学习机制可以帮助具身智能从历史经验中汲取知识，持续优化性能并提升泛化能力。具身智能应具备自适应性，能够持续学习和自我调整，有效应对新任务、变化和挑战，在长期运行中实现效率和智能水平的不断提升。

具身智能的物理行为和认知结构受到环境的塑造和影响。环境不仅仅是具身智能活动的背景，更是塑造其行为和认知模式的关键因素。具身智能应能展现出环境适应性，使其能够根据环境变化灵活调整其行为和认知策略，以在复杂物理世界中实现高效操作和精准决策。

二、具身智能的发展现状

具身智能包括大脑、小脑和本体三个重要组成。大脑负责顶层决策规划；小脑负责运动控制；本体负责动作执行。三个部分发展进程不一，但均处于快速发展之中。

具身智能大脑：大模型成为最大发展推动力

大脑是整个系统的核心控制中心，模拟人类思维决策过程，主导上层的逻辑推理、决策、长时间的规划以用自然语言和其他的智能体、环境交流。

大语言模型（LLM）、视觉语言模型（VLM）等基础模型的最新进展，特别是ChatGPT、PaLM等模型在具身智能中的应用，有效增强了其感知和决策能力，推动大模型成为具身智能实现“感知-推理-预测-行动”能力的主流架构，业界已经有多款模型发布，并在各类复杂任务中取得了显著的进展，且这些模型仍在快速迭代与优化中。

ŸSayCan：谷歌机器人大模型的开端。该模型将任务分解为两个部分，实现了从高级语言理解到物理行动的转换。首先是“Say”，在该过程中，LLM根据用户提供的高级文本指令，生成可能的行动序列。之后是“Can”，该过程对行动序列进行评估，并结合物理环境选择可执行的动作。该模型首次引入LLM用于理解任务，并选择合适的任务规划。但由于动作是预设的，因此只能完成特定任务，底层技能的通用性和泛化性较差。

ŸRT-1、RT-2、RT-X：其中RT-1首先将Transformer应用到机器人领域，表现出较好的长时序任务执行能力；RT-2使用了视觉语言动作模型（VLA，Vision-Language-Action Models），实现由大模型直接输出动作；RT-X采用了大规模、多样化数据集进行训练，实现了可在不同机器人平台、任务和环境迁移的“通用”模型。

ŸPaLM-E：该模型继承了PaLM在语言生成上的强大性能，并利用ViT提升了在视觉相关任务中的表现，具体实现上PaLM-E通过ViT提取视觉特征，并将其与语言特征融合，从而使模型具备处理多模态输入的能力。但由于该模型缺乏对低层次动作控制的建模能力，PaLM-E在执行具体动作时表现较弱，只能处理机器人的高级指令，而无法实现更细粒度的运动控制。

ŸACT：即Action Chunking with Transformers，该模型使用Transformers实现动作分块策略，并使用变分自编码器（CVAE）来捕获人类数据中的可变性，完成多视角图像、关节位置和风格变量的处理，从而生成连贯的动作序列，实现了精确且平滑的运动，显著提高了在模拟和现实世界中的细粒度操控任务上的性能。但由于该模型高度依赖数据的质量和多样性，在处理与训练环境差异较大的实际任务时，可能表现出适应性不足的问题。

ŸVoxPoser：该模型利用LLM和VLM协同来将抽象的语言指令转化为具体的动作指令。首先，LLM根据用户指令完成代码编写，之后VLM将上述代码与实际的视觉感知相结合，并最终合成运动轨迹。该框架可以通过零样本的方法实现高效、灵活的机器人操控，但需要手动设计大量Prompts来引导LLM。

ŸRoboFlamingo：该模型利用了视觉-语言大模型VLM，通过模仿学习对语言指令和视觉观察进行深入理解，并将其转化为精确的动作规划和决策，生成机器人控制信号；在实际任务中，只需要使用较少量的下游机器人操控数据就能达到高性能和通用性。

Ÿ3D Diffuser Actor：该模型利用3D场景表示来整合深度信息，实现了视觉观测与语言指令在同一3D空间中的融合，在提升对复杂环境的深入理解的同时增强了操作的精确性。此外，引入扩散模型学习动作分布，提高了动作预测的准确性和鲁棒性。

从上述内容可以看出，顶级科技公司和科研机构持续有机器人大模型推出，且技术方案各不相同。目前机器人大模型的技术路线还远未开始收敛[16]，随着后续语言类大模型、多模态大模型的持续发展，具身智能底层架构同样有变化的可能。

具身智能小脑：与本体构型紧密耦合，有待突破

小脑在整个系统中处于承上启下的位置，向上承接大脑给出的任务指令，向下控制本体整机的运动。具体而言，其从大脑接收决策指令，并负责将这些高层次的策略转化为具体的运动指令，确保本体能够准确、流畅地执行各种物理动作。

不同于具身智能大脑可与硬件解耦、实现通用化，由于小脑专职于具身智能本体的微观运动控制，与本体紧耦合，需与本体相适应与优化，才能实现高效、精准和稳定的运动控制。实现运动控制的典型方法包括如下几种：

Ÿ模型控制：该方法依赖于精确的动力学模型来计算控制信号，与构型的物理特性紧密耦合。构型的复杂性直接影响算法的设计和实现，在复杂结构或多自由度系统中，模型控制可能会面临求解困难和计算负担的问题。

Ÿ人机映射：该方法需要构型与人类动作之间的自然对应，构型的设计必须考虑人类的运动习惯和反馈机制，以确保映射的有效性和直观性。该方法将人类的动作意图转换为机器人操作指令，具有较高的直观性和灵活性。这种方法面临跨域适应性的挑战，特别在处理复杂或未见过的动作时可能会受到限制。

Ÿ强化学习：该方法通过构型与环境的交互来学习最优行为策略，能够适应高度不确定性和复杂性的环境，但可能需要大量的试错，构型的自由度、反馈特性以及物理不确定性都会影响算法的学习效率和策略的可迁移性。

具身智能的运动控制不仅有高度的复杂性，而且与构型紧密耦合，运控算法的优化与提升仍然面临一系列的技术挑战。当前业界已在积极探索大模型等深度学习算法在运动控制领域的应用，初步实现了端到端学习和基于模型的控制两种技术方案。未来随着大模型的发展，特别是融合感知、多模态和泛化能力的突破，有望显著推动运动控制技术的进步，实现更加精准、复杂和实时的运动调节，推动具身智能在更多行业的应用。

具身智能本体：发展悠久，人形成为当下发展热点

本体是具身智能系统的物理实体部分，主要负责动作的执行。它接收小脑的运动指令，通过执行机构（如传感器、动力部件、结构部件等）来实现具身智能体在物理世界中的实际运动。本体在整个具身智能系统中，起到将虚拟决策转化为物理行为的关键作用。

本体包含构型、主控系统等模块，决定了具身智能体的外在，同时也是具身智能体实现运动、感知等能力的基础，其核心设计包括框架与机械结构、控制器、驱动系统、关节数量、关节位置、通信协议等，目前，本体正在向更轻便、更灵活、更鲁棒的方向发展，涉及的技术创新包括材料及机构、高自由度机械臂、灵巧手以及高精度力觉、触觉传感器等。

本体常见的构型方案包括单/双臂、轮式/履带式、足式（双足、四足）等。在众多形态中，人形智能体因其在执行通用任务上的潜力而备受关注，有望成为打造具身智能的最佳载体[17]。当前，特斯拉、英伟达等巨头以及Figure AI、宇树科技等初创科技企业纷纷投入人形机器人的研发和市场布局，零部件供应链也趋向成熟，带来未来产量预期的显著增加，带动工艺的提升和单位成本的快速下降，加速其在多个领域的广泛应用和商业化进程。

查看全文

http://www.mrgr.cn/news/31564.html