具身智能之视觉语言导航(VLN)类别与基准
目录
- 一、VLN概述
- 二、任务类型
- 2.1 指令导向
- 2.2 目标导向
- 2.3 需求导向
- 2.4 对话导向
- 三、数据集基准
- 3.1 指令导向
- 3.1.1 R2R
- 3.1.2 VLN-CE
- 3.1.3 RxR
- 3.2 物品导向
- 3.2.1 REVERIE
- 3.2.2 SOON
- 3.3 需求导向
- 3.3.1 DDN
- 3.4 对话导向
- 3.4.1 DialFRED
- 参考文献
一、VLN概述
具身智能领域中的视觉语言导航(Visual Language Navigation,简称VLN)是当前研究的一个重要方向,其目标是使智能体能够根据自然语言指令在全新且未知的环境中完成自主导航任务。VLN的核心挑战在于,智能体需要综合理解复杂且多样化的视觉场景,同时对自然语言指令进行语义解析,并在不同层次和粒度上匹配视觉线索与语言信息。此外,智能体还需在一系列候选动作中进行推理与决策,选择最优路径以满足指令的要求。这一问题的解决对于促进多模态交互、强化学习以及智能体在现实环境中的应用具有重要意义。
二、任务类型
从任务类型的角度来看,视觉语言导航(Visual Language Navigation, VLN)任务可以分为四类:指令导向任务(Instruction-Following)、目标导向任务(Goal-Oriented)、需求导向任务(Demand-Driven)以及对话导向(Dialogue)。这些任务共同要求智能体能够融合自然语言指令和动态视觉观察,以实现实时决策与导航。
2.1 指令导向
指令导向的视觉语言导航任务侧重于智能体严格依照自然语言指令完成导航路径规划与执行。此类任务的核心在于,智能体需要准确解析复杂的自然语言指令,并将其转化为一系列具体的导航动作。例如,指令可能描述为 往前走到海报附近然后右拐进办公室 ,智能体需逐步理解并执行这些操作,以最终到达指令中指定的位置。这类任务挑战了智能体在细粒度语言理解和动态环境感知方面的能力。
2.2 目标导向
目标导向的视觉语言导航任务要求智能体基于给定的目标信息进行导航。在此类任务中,智能体需理解目标的语义描述,并在环境中探索和识别与目标相匹配的物体或区域。例如,当智能体接收到 找到沙发 的指令时,它需要在视觉感知中准确识别出沙发的具体位置,并规划路径以到达目标。这种任务强调了智能体在目标识别与语义匹配能力方面的表现。
2.3 需求导向
需求导向的视觉语言导航任务是一种更高级的任务形式,旨在让智能体根据用户提出的抽象需求实现导航。与指令导向和目标导向任务不同,需求导向任务通常不直接提供具体的目标或物体,而是需要智能体从语言描述中推断用户的意图,并找到能够满足需求的物体或区域。例如,当用户说 我饿了 时,智能体需要理解这一需求并推理可能的解决方案,如导航至厨房或找到食物。这类任务不仅要求智能体具备强大的语言理解和视觉感知能力,还需在推理与情境适配方面展现出较高的智能水平。
2.4 对话导向
对话导向的视觉语言导航任务是一种新兴的任务形式,强调智能体通过主动发起对话以获取补充信息,从而更好地完成复杂任务。与传统任务类型不同,对话导向任务允许智能体在任务过程中提出问题以消除指令中的歧义或弥补感知中的信息不足。任务的核心挑战在于,智能体需能够判断何时提问以及提出什么样的问题,以最大限度地提高任务执行的效率和准确性。例如,在“移动到厨房桌子并拿起刀子”的任务中,当智能体对目标位置不明确时,可以询问用户厨房桌子在哪里?或刀子是什么颜色的?,用户的回答(如桌子在你左边”或“刀子是黄色的)将帮助智能体定位目标并完成相应的操作。通过整合用户的回答,智能体能够动态调整其行动计划,克服由于信息不完整或环境复杂性导致的任务困难。
综上所述,指令导向、目标导向、需求导向以及对话导向任务从不同层面对智能体的多模态感知、语义理解、推理能力和交互机制提出了多样化的挑战。其中,指令导向任务强调细粒度的任务执行,目标导向任务侧重于目标语义匹配,需求导向任务关注高层次需求的理解与推理,而对话导向任务则聚焦于通过人机对话主动获取信息以解决指令歧义和信息不足。这些任务类型为视觉语言导航研究提供了丰富的实验场景和评估平台,其深入探索将进一步推动智能体在复杂动态环境中的交互效率与实际应用能力的发展。
三、数据集基准
3.1 指令导向
3.1.1 R2R
Room-to-Room (R2R) 数据集是一个专门为视觉语言导航(VLN)任务设计的基准数据集,旨在评估智能体在真实环境中理解自然语言指令并完成导航任务的能力。该数据集基于 Matterport3D 数据集构建,包含 90 个真实建筑内的高分辨率 3D 全景场景,如住宅、公寓、酒店和办公室等,涵盖了丰富的视觉多样性。R2R 数据集包括 7,189 条导航路径,以及由众包生成的 21,567 条自然语言导航指令,这些指令平均长度为 29 个词,清晰描述了导航路径的起点、途径点和目标位置。R2R 数据集的显著特点是智能体需在未见过的真实环境中完成导航任务,强调了智能体在动态、开放式环境中的语义理解和实时决策能力。此外,数据集中提供的指令语言多样化且具备开放词汇,进一步增加了任务的挑战性。作为基准,R2R 数据集为研究智能体的多模态感知、推理与导航能力提供了重要的实验平台,同时推动了视觉语言导航任务在现实场景中的实际应用研究。
3.1.2 VLN-CE
这篇论文提出了 Vision-and-Language Navigation in Continuous Environments (VLN-CE) 数据集基准,旨在突破以往基于导航图(nav-graph)的视觉语言导航任务的局限性。VLN-CE 基于 Matterport3D 数据集构建,通过在连续的 3D 环境中重新定义导航任务,使得智能体能够在无约束的环境中执行低层次动作(如前进、转向等)完成自然语言指令的导航。这一设置消除了导航图带来的多种不现实假设,例如已知的环境拓扑、完美的路径规划能力和精确的定位信息。VLN-CE 数据集继承了 Room-to-Room (R2R) 数据集的自然语言指令和轨迹描述,但将原本基于导航图的路径映射到连续的 3D 空间中。这一转换显著增加了导航任务的复杂性,要求智能体在平均 55 步的长时间路径中处理环境动态变化、规避障碍物,并依赖有限的视觉感知完成导航。与传统 R2R 数据集中的“瞬移”导航不同,VLN-CE 强调真实场景中的视觉输入、连续运动和感知噪声,使其更贴近实际机器人任务的需求。
3.1.3 RxR
Room-Across-Room (RxR) 是一个多语言视觉语言导航(VLN)数据集,专注于推动智能体在真实照片级3D环境中的多模态感知、语义理解和导航能力。RxR 支持英语、印地语和泰卢固语三种语言,每条导航指令均由母语者从头撰写,非翻译版本,从而捕捉不同语言在空间和时间表达上的独特特性。数据集包含 16,500 条导航路径,以及超过 126,000 条自然语言导航指令,与路径的时空轨迹进行了密集对齐。通过记录路径创建者和验证者的虚拟位置和操作,RxR 提供了语言指令与视觉环境之间的细粒度时空对应,极大地提升了研究的深度和细致性。路径设计方面,RxR 在长度、复杂性和视觉多样性上远超以往数据集,覆盖更多地标和对象,减少了路径偏差问题。此外,数据集中包含的创建者和验证者的路径示范,为智能体的监督学习提供了丰富的训练信号。RxR 以其多语言、多样化和高精度的特性,为视觉语言导航领域的研究提供了新的机遇和方向。
3.2 物品导向
3.2.1 REVERIE
REVERIE 数据集是一个专注于目标导向任务的视觉语言导航(VLN)基准数据集,旨在评估智能体根据自然语言指令在复杂真实室内环境中完成导航和目标识别的能力。REVERIE 基于 Matterport3D 模拟器构建,包含 90 个真实建筑场景,覆盖 21,702 条高度抽象的自然语言指令和 4,140 个目标对象。智能体需根据指令推理目标物体的位置,导航到目标附近,并最终输出目标对象的边界框。与传统的 VLN 任务相比,REVERIE 更加强调目标对象的语义识别和精确定位,而不仅仅是完成导航路径规划。其高保真场景和复杂任务设置为研究多模态理解、视觉感知和目标导向推理提供了一个重要的平台。
3.2.2 SOON
SOON 数据集是一个专注于目标导向任务的视觉语言导航(VLN)基准,设计用于评估智能体在复杂真实3D环境中定位目标物体的能力。SOON 的独特之处在于,其导航任务是场景导向的目标导航,智能体需根据复杂的自然语言指令,从任意起始位置导航到目标区域,并最终定位目标对象。数据集基于 Matterport3D 模拟器构建,包含 90 个真实室内场景、4,000 多条自然语言指令和 40,000 条导航轨迹,每条指令平均包含 38 个单词,详细描述了目标对象的属性、周围物体的关系、目标区域及其邻近区域的信息。例如,指令可能是“找到一盏高大的金属台灯,它位于一楼的客厅中,放在电视左侧的柜子上,旁边有窗户”,要求智能体通过多模态感知逐步缩小搜索范围,从全局导航到局部目标识别。SOON 提供了从粗到细的导航过程,强调了智能体的探索能力与自适应性,为真实场景中的目标导航研究提供了挑战性和现实性的实验平台。
3.3 需求导向
3.3.1 DDN
DDN数据集是为了支持需求驱动导航任务而创建的。这个任务要求智能体(agent)根据自然语言描述的需求指令,在给定环境中找到能够满足这些需求的物体。DDN数据集通过使用大型语言模型(LLM),特别是GPT-3,来生成需求指令和与之对应的能够满足这些需求的物体列表。这些映射关系被称为世界接地映射(world-grounding mappings),它们将特定的需求指令与能够满足这些指令的物体联系起来。例如,如果需求是“我想知道现在几点了”,那么能够满足这一需求的物体可能包括“闹钟”、“手机”、“笔记本电脑”、“台式机”和“手表”。这些映射关系不仅包括单一物体,还可能包括多个能够满足同一需求的不同物体。数据集中的每个指令平均可以由2.3个物体满足,而每个物体平均能够满足51.3个不同的指令。这种设计反映了现实世界中的灵活性,即同一需求可以通过多种方式得到满足。DDN数据集的统计特性显示,平均每个需求指令包含7.5个单词,而且大约60%的映射关系涉及到两个或更多的物体。这种数据集的设计旨在模拟真实世界中的复杂性,其中用户的需求可能以多种方式得到满足,而智能体必须能够理解和推理这些需求与环境中物体之间的关系。
3.4 对话导向
3.4.1 DialFRED
DialFRED是一个对话启用的具身指令跟随基准,基于ALFRED基准测试扩展而来。DialFRED允许智能体在执行任务时主动向人类用户提问,并利用用户回答中的额外信息更好地完成任务。这个数据集包含了53K个与任务相关的人工标注问题和答案,以及一个能够回答问题的预言系统(oracle)。DialFRED数据集的特点在于它不仅包含了任务的指令,还包含了执行任务时可能需要的对话信息。这些信息可以帮助智能体更好地理解和执行任务,尤其是在自然语言指令中存在歧义或者信息不足时。数据集中的问题和答案覆盖了多种家庭任务,如清洁、移动物体、开关电器等。例如,如果任务指令是“把刀拿到厨房桌子上”,而环境中有两把刀,智能体可能会问:“哪把刀是目标?”人类用户可能会回答:“目标刀是黄色的。”通过这样的对话,智能体能够获得额外的信息来解决歧义,并正确执行任务。DialFRED数据集通过亚马逊机械土耳其(Amazon Mechanical Turk)收集人类标注的问题和答案,每个实例包括问题类型、询问的对象以及人类的回答。这个数据集为研究者提供了一个资源,用于模拟人类如何提出和回答任务导向的问题,并且可以用于训练和评估对话启用的具身智能体。
参考文献
[1] Anderson P, Wu Q, Teney D, et al. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3674-3683.
[2] Krantz J, Wijmans E, Majumdar A, et al. Beyond the nav-graph: Vision-and-language navigation in continuous environments[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXVIII 16. Springer International Publishing, 2020: 104-120.
[3] Qi Y, Wu Q, Anderson P, et al. Reverie: Remote embodied visual referring expression in real indoor environments[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9982-9991.
[4] Chaplot D S, Gandhi D P, Gupta A, et al. Object goal navigation using goal-oriented semantic exploration[J]. Advances in Neural Information Processing Systems, 2020, 33: 4247-4258.
[5] Wang H, Chen A G H, Li X, et al. Find what you want: learning demand-conditioned object attribute space for demand-driven navigation[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6] Ku A, Anderson P, Patel R, et al. Room-across-room: Multilingual vision-and-language navigation with dense spatiotemporal grounding[J]. arXiv preprint arXiv:2010.07954, 2020.
[7] Ramakrishnan S K, Gokaslan A, Wijmans E, et al. Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai[J]. arXiv preprint arXiv:2109.08238, 2021.
[8] Qi Y, Wu Q, Anderson P, et al. Reverie: Remote embodied visual referring expression in real indoor environments[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9982-9991.
[9] Zhu F, Liang X, Zhu Y, et al. Soon: Scenario oriented object navigation with graph-based exploration[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12689-12699.
[10] Gao X, Gao Q, Gong R, et al. Dialfred: Dialogue-enabled agents for embodied instruction following[J]. IEEE Robotics and Automation Letters, 2022, 7(4): 10049-10056.