一. 论文摘要介绍表格

项目 内容
论文标题 InternVLA-N1: 一个带有学习式潜在规划的开放双系统视觉-语言导航基础模型
核心问题 传统的视觉-语言导航模型要么动作空间有限、响应慢,要么难以泛化到真实世界。如何构建一个既能进行长远规划又能实时响应动态环境的通用导航模型是核心挑战。
提出模型 InternVLA-N1。这是一个双系统(Dual-System)模型,包含:
系统2 (规划系统): 一个基于7B参数VLM的高层规划器,负责理解指令,以较低频率(2Hz)生成中期目标。
系统1 (执行系统): 一个轻量级的扩散策略模型,负责根据实时观测和系统2的规划,以较高频率(30Hz)生成平滑、无碰撞的短期轨迹。
主要创新点 1. 双系统异步架构: 首次提出将“思考”(系统2)与“行动”(系统1)分离并异步执行的导航框架,解决了复杂推理与实时响应之间的矛盾。
2. 学习式潜在规划: 用可学习的潜在令牌替代模糊的像素坐标作为系统间的接口,提升了规划的表达能力和鲁棒性。
3. 课程学习与联合微调: 设计了两阶段训练范式,先独立预训练,再通过模拟异步执行进行联合微调,有效提升了系统的协调性和泛化能力。
4. 首个开放模型与数据集: 开源了模型、代码和迄今为止最大规模的导航数据集(InternData-N1),极大地推动了社区的研究。
提出数据集 InternData-N1。这是一个超大规模的导航数据集,包含:
• 超过 5000万 张第一人称视角图像。
• 累计 4,839公里 的机器人导航经验。
• 覆盖超过 3,000 个不同的3D场景。
关键成果 • 在6个主流导航基准上取得SOTA(业界顶尖)性能,提升幅度为3%-28%。
• 实现了强大的 零样本泛化(Zero-shot Generalization),无需在真实场景微调即可部署在多种形态的机器人上(轮式、四足、人形)。
• 在真实世界中展示了 长距离(>150m)规划实时(>30Hz)决策 的能力,能有效规避动态障碍物。

二. 论文具体实现流程

InternVLA-N1的实现流程可以分为训练阶段推理阶段

1. 训练阶段(两阶段课程学习)
  • 输入:

    • 大规模导航数据集 InternData-N1 (包含VLN-N1, VLN-CE, VLN-PE子集)。
    • 数据样本形式:(语言指令, 轨迹中的图像序列, 动作序列/路标点)。
  • 阶段一:单系统预训练 (Single-System Pre-training)

    • 目标: 让两个系统分别掌握基础导航能力。
    • 系统2 (规划系统):
      • 逻辑: 基于预训练的视觉-语言大模型 (Qwen-VL-2.5 7B),利用VLN-CE数据集进行监督式微调。
      • 流程: 模型输入语言指令和图像,输出与指令对应的最远可见路标点的 像素坐标(pixel goal)。训练目标是最小化预测坐标与真实坐标的差距。
      • 输出: 一个能够将语言指令“翻译”成图像上具体目标的VLM。
    • 系统1 (执行系统):
      • 逻辑: 基于扩散模型的导航策略,利用VLN-N1数据集从零开始训练。
      • 流程: 模型输入当前观测图像和 明确的目标 (如点目标、图像目标、像素目标),输出一条安全、可执行的短期轨迹。通过一个目标对齐损失函数,让模型学会将不同类型的目标统一到点目标表示上,简化学习。
      • 输出: 一个擅长在局部环境中进行路径规划和动态避障的敏捷执行器。
  • 阶段二:多系统联合微调 (Multi-System Joint-tuning)

    • 目标: 将两个系统有效连接起来,并教会它们异步协作。
    • 逻辑:
      1. 接口替换: 用一组 可学习的潜在令牌 (learnable latent tokens) 替换之前系统2输出的显式像素坐标,作为两个系统之间的新接口。这组令牌更紧凑、信息量更大。
      2. 模拟异步: 在训练中,系统1接收最新的图像观测 (时间步 T),而系统2接收的是一个随机延迟的旧图像 (时间步 T-K)。这迫使系统1学会“预测”和适应规划指令的延迟,而不是死板地等待。
    • 流程: 冻结系统2大部分参数,重点微调系统1和连接它们的潜在令牌。整个模型以端到端的方式进行优化,目标是完成导航任务。
    • 输出: 一个训练完成、能够异步协作的InternVLA-N1模型。
2. 推理阶段(真实世界部署)
  • 输入:

    • 用户给出的一句 自然语言指令 (例如,“穿过桌椅,左转进入咖啡厅,在咖啡台前停下”)。
    • 机器人摄像头实时采集的 RGB-D图像流 (30Hz)。
  • 流转逻辑与数据流程:

    1. 初始化: 用户给出指令,系统2接收该指令和初始的几帧图像。
    2. 低频规划 (系统2, 2Hz):
      • 系统2根据语言指令和积累的历史图像,进行思考和推理,生成一组紧凑的 潜在规划令牌 (latent plan tokens),代表着下一个中期目标。这个过程大约每秒进行2次。
    3. 高频执行 (系统1, 30Hz):
      • 系统1持续接收最新的实时图像(30Hz)和来自系统2的 最新一份潜在规划令牌
      • 它将这个抽象的“规划”解码为一条具体的、无碰撞的短期轨迹。这个过程非常快,大约每秒30次。
    4. 异步循环:
      • 机器人控制器执行系统1生成的轨迹。
      • 与此同时,系统2在后台继续“思考”更远的目标。一旦系统2生成了新的潜在规划,它就会立刻更新给系统1。
      • 系统1不需要等待系统2完成思考,它总是在使用手上最新的“地图”来导航,这使得整个系统反应非常迅速。
    5. 任务完成: 系统2判断任务已完成后,会输出一个 STOP 信号,机器人停止。
  • 输出:

    • 机器人平滑、连贯、安全的 导航行为
    • 成功到达指令描述的目标位置。

三. 有趣的白话版详细解说

想象一下,你想教一个机器人管家在你的家里自由活动。过去我们是怎么做的呢?可能像玩游戏一样,你按一下“前进”按钮,它就往前走一步;按一下“左转”,它就转个弯。这种方式太笨了,而且如果前面突然出现一只猫,它可能就直接撞上去了。

最近,科学家们想让机器人变得更聪明,能听懂人话,比如你说“去厨房帮我拿瓶可乐”,它就能自己搞定。但这里有个大问题:“思考”和“行动”很难两全其美

  • 思考:理解“厨房在哪”、“可乐在冰箱里”这种复杂指令,需要一个非常强大的“大脑”(就像GPT-4那样的大模型)。这个大脑虽然聪明,但想问题比较慢。
  • 行动:走路、拐弯、躲开你乱丢的鞋子,这需要非常快的反应速度。如果机器人每走一步都要停下来思考半天,那它就跟卡顿的游戏角色没区别了。

InternVLA-N1 是如何解决这个矛盾的?它给机器人装了两个“脑子”!

这篇论文的科学家们创造了一个叫 InternVLA-N1 的AI模型,它的工作方式非常像我们人类:

  1. 一个“规划脑”(系统2):这是个博学的“智者”,像个坐在指挥室里的将军。你告诉它“去大门口”,它就会看着地图(机器人看到的画面),然后定一个中期目标,比如“先走到走廊尽头那个挂着画的墙”。这个脑子想得深、看得远,但因为它要处理很多信息,所以反应稍慢,大概每秒钟更新两次指令。

  2. 一个“运动脑”(系统1):这是个反应神速的“驾驶员”,像个身手敏捷的士兵。它的任务很简单:接收“将军”下达的最新指令(“冲向那面墙!”),然后盯着眼前的路况,以极快的速度(每秒30次)规划出最安全、最平稳的前进路线,灵活地绕开桌子腿、避开跑过来的小孩。

最妙的是,这两个“脑子”是异步工作的!

“驾驶员”(行动脑)不需要每次都等“将军”(规划脑)发布新命令。它会一直使用手上最新的那份命令往前冲。而“将军”在后台慢悠悠地思考下一个目标。一旦想好了,就把新命令递给“驾驶员”。这样一来,机器人既有长远的规划,又能实时对环境做出快如闪电的反应。这就好比你开车去一个陌生地方,你大脑里想着“下一个路口要右转”(规划脑),但你的手和脚一直在根据眼前的车况微调方向盘和刹车(运动脑),两者配合得天衣无缝。

为了训练出这么聪明的机器人,科学家们还干了件大事:

他们建造了一个史上最大的虚拟“驾校”,叫做 InternData-N1。这个驾校里有超过3000个不同的虚拟房间和建筑,总训练里程加起来能绕地球小半圈。机器人就在这个虚拟世界里反复练习,直到学会听懂各种指令并在复杂环境中穿行。

所以,InternVLA-N1到底有多牛?

它就像一个被赋予了导航“直觉”的AI。你把它装在轮式机器人、机器狗、甚至人形机器人身上,它都能立刻上手,不需要额外训练。在测试中,它不仅在各项导航比赛中碾压了之前的冠军,还能在现实世界的办公室、食堂、街道上零失误地完成任务,比如在拥挤的人群中穿梭,找到指定的工位。

我的观点和理解

这篇论文最让我印象深刻的,是它展现出的从“理论”到“实用”的巨大跨越。很多AI研究听起来很酷,但离实际应用还很遥远。而InternVLA-N1提出的“双系统异步”架构,则是一个非常优雅且务实的工程解决方案,它直接命中了机器人领域一个核心痛点:如何平衡高级智能的“慢思考”与物理世界交互的“快反应”。

它不再是一个只能在模拟器里跑分的“实验室模型”,而是一个真正有潜力部署在各类机器人上,让它们在我们的生活中提供服务的“准产品”。

此外,团队选择将模型、代码和那个庞大到惊人的数据集全部开源,这是一种非常了不起的姿态。这意味着全世界的研究者都可以站在这位“巨人”的肩膀上,共同加速“机器人走进千家万户”这一天的到来。我认为,InternVLA-N1不仅是一个技术上的突破,更是推动整个具身智能(Embodied AI)领域向前迈进的重要里程碑。它让我们离那个机器人能真正理解我们、并与我们共存的未来,又近了一大步。

四. 论文完整翻译

我们介绍InternVLA-N1,这是首个开放的双系统视觉-语言导航基础模型。与以往只能从有限离散空间中采取短期行动的导航基础模型不同,InternVLA-N1将任务解耦为使用系统2进行像素级目标规划和使用系统1进行敏捷执行。我们为此框架设计了一个课程学习式的两阶段训练范式:首先,两个系统通过显式的像素目标作为监督或条件进行预训练。随后,我们冻结系统2,并以异步的端到端方式对新加入的潜在规划与系统1进行微调。这种依赖潜在规划作为中间表示的范式,消除了像素目标规划的模糊性,并为利用视频预测进行预训练扩展提供了新的可能性。为了实现可扩展的训练,我们开发了一个高效的模拟导航数据生成流程,并推出了迄今为止最大的导航数据集InternData-N1。InternData-N1包含从超过3,000个场景中收集的5000多万张第一人称视角图像,累计机器人导航经验达4,839公里。我们在6个具有挑战性的导航基准上评估了InternVLA-N1,其性能始终达到业界顶尖水平,提升幅度从3%到28%不等。特别值得一提的是,尽管该模型仅使用模拟数据进行训练,但它能够零样本泛化到多种不同的机器人形态(轮式、四足、人形)和野外环境中,并展示了长距离规划(>150米)和实时决策(>30Hz)能力在真实世界中的协同整合。所有代码、模型和数据集均已公开可用。

在这里插入图片描述


1. 引言

导航是机器人学中的一个基础任务。在实践中,导航系统通常以语言指令和视觉观察作为输入,并据此执行规划好的轨迹。近年来,该领域取得了显著进展,从基于离散目标规划构建基准的探索(Anderson et al. (2018a); Ku et al. (2020)),发展到连续动作空间(Krantz et al. (2020b))以及带有运动控制器的物理逼真模拟(Cheng et al. (2025); Wang et al. (2025b))。另一方面,多模态大语言模型(LLMs)因其强大的先验知识,为在模拟中训练模型并将其泛化到开放的真实世界提供了新的潜力。研究界对此表现出日益浓厚的兴趣(Cheng et al. (2025); Wei et al. (2025); Zhang et al. (2025a); Zheng et al. (2024)),并已在这一方向上做出了成功的初步尝试,在包括四足机器人和人形机器人在内的多种机器人形态上进行了验证。

然而,尽管这些模型是基于如VLN-CE(Krantz et al. (2020b))等连续环境基准开发的,但它们的动作空间被简化为离散选择,并以端到端的方式进行预测。因此,它们只能从有限的空间中采取短期行动步骤,并且在推理速度和导航行为碎片化方面存在困难。直观上,与这种从视觉观察和语言指令到直接动作输出的硬性映射相比,一种更原生的目标类型应该是中期目标,尤其是在图像像素上的目标,这指示了机器人应该去往何处,并且可以与多模态大语言模型的视觉定位(visual grounding)能力对齐。同时,设计另一个高频的本地规划器来执行朝向该中期目标的路径规划,并具备躲避动态障碍的敏捷性。最终,整体框架的运行机制类似于人类认知理论中卡尼曼(Kahneman (2011))提出的“系统1执行与系统2思考”。已有若干研究尝试在构建视觉-语言-动作(VLA)模型时应用此类思想,例如Helix(FigureAI (2025))、GROOT(Bjorck et al. (2025))、Hi Robot(Shi et al. (2025))和OneTwoVLA(Lin et al. (2025b))。

本文提出了InternVLA-N1,这是首个将学习式潜在规划作为中间表示的开放双系统视觉-语言导航基础模型。与在桌面操作等完全可观察环境中进行规划不同,InternVLA-N1中的系统2需要在部分可观察和移动的外部感知视角条件下,根据语言指令执行多轮、精确的规划。同时,系统1负责在真实世界环境中执行这些规划,稳健地处理如行人等动态干扰。

为了应对这些挑战,我们将系统2构建为一个像素目标规划器,利用多模态大语言模型作为其骨干,以发掘其固有的常识知识和多模态感知能力。我们将像素目标定义为投射在2D图像平面上的优选导航路标点。作为补充,系统1被设计成一个轻量级的、基于扩散的视觉导航策略,能够根据系统2生成的目标进行实时路径规划。两个系统首先被分开预训练以形成基础的导航能力。系统2被训练用于将像素定位能力与视觉-语言导航(VLN)领域对齐,而系统1则被训练用于在显式目标(包括像素目标坐标)的条件下,生成通往该目标的无碰撞导航路径。

尽管在预训练后,这两个系统可以级联成一个完整的VLN框架,但这种设计引入了几个关键挑战。首先,同步系统2的规划与系统1的执行会显著增加整体延迟,因为系统1必须等待多模态大语言模型的响应。这种延迟损害了系统在动态环境中有效响应的能力,降低了其实用性。其次,使用2D像素坐标来表示导航目标存在歧义性,常常导致系统1产生次优或混乱的行为。

为了解决这些问题,我们引入了一个额外的微调阶段,该阶段支持异步推理,并增强了两个系统之间中间目标接口的空间表示能力。具体来说,在微调期间,系统1持续接收最新的观测数据,而系统2则在延迟的输入上运行。这种设置鼓励系统1动态地评估目标完成情况,并适应异步的执行节奏。此外,我们用可学习的潜在令牌替换了显式的像素目标,通过联合调整实现了可能更具信息量的隐式规划参考。为了增强和验证这些潜在表示,我们训练了一个基于潜在规划的世界模型,用以预测后续的第一人称视角观测序列。实验证明,我们的世界模型能够想象出朝向规划目标的、连贯且高质量的第一人称观测序列。视频预测目标促进了从潜在令牌中提取空间信息,并加速了联合微调过程的效率,同时也带来了一个可利用真实世界视频数据进行扩展的训练范式。

为了支持上述的预训练和联合微调,我们开发了一个高效的模拟数据生成流程,单台机器每天能产出5万条导航轨迹。结合自动指令标注和数据筛选过程,该流程构建了一个大规模导航数据集——InternData-N1,它包含超过5300万张第一人称视角图像观测和80万条语言指令,涵盖了3000多个室内场景,相当于约4,839公里的机器人导航经验。

实验结果表明,InternVLA-N1在六个具有挑战性的基准测试中,始终优于先前的顶尖方法,性能提升范围从3%到28%。此外,真实世界评估展示了其强大的长距离规划能力(>150米)和实时决策能力(>30Hz),可跨多种机器人在不同场景下应用,突显了其在动态开放世界中的适应性。


2. 相关工作

视觉-语言导航 (Vision-Language Navigation, VLN)。VLN是一个长距离的指令跟随任务,要求机器人进行精确的规划和执行。早期的研究通过采用离散设置来简化问题(Anderson et al. (2018a); Ku et al. (2020); Qi et al. (2020)),即智能体在导航图中的预定义节点之间传送。这种抽象忽略了如障碍物规避和路径规划等关键的现实世界挑战。为了更好地模拟真实世界条件,研究者引入了连续环境中的视觉-语言导航(VLN-CE)(Krantz et al. (2020b); Savva et al. (2019)),其中智能体使用低级的离散控制动作进行操作。此后,许多方法被提出(An et al. (2022, 2023); Hong et al. (2022); Irshad et al. (2022); Krantz and Lee (2022); Krantz et al. (2021); Raychaudhuri et al. (2021); Wang et al. (2023b)),在模拟环境中的导航准确性得到了稳步提升。然而,对任务特定网络架构和有限训练数据的依赖,持续阻碍了零样本泛化和模拟到现实的迁移。为解决这些限制,近期的智能体方法(Chen et al. (2024, 2025); Lin et al. (2025a); Long et al. (2024c,d); Qiao et al. (2024); Zhang et al. (2025b); Zhou et al. (2023, 2024))利用通用基础模型,在真实世界的VLN任务中展现了改进的性能和鲁棒性。然而,如果缺乏用于下游任务微调的多样化数据,这些通用基础模型与导航领域的对齐度仍然很差。为此,我们提出了一个在模拟中高效生成数据的流程,从而产出了一个高质量的数据集InternData-N1。结合先进的训练方案和精炼的网络架构,我们的模型InternVLA-N1在多个VLN基准上达到了顶尖性能,并展示了强大的零样本泛化到真实世界的能力。

视觉导航策略学习 (Visual Navigation Policy Learning)。视觉导航技能负责到达明确的目标并执行实时障碍物规避。传统的模块化方法(Fox et al. (1997); Karaman and Frazzoli (2011); Kramer and Stachniss (2012); Williams et al. (2015); Zhou et al. (2020))依赖于显式的定位和建图来完成导航任务。然而,这些系统常常受到级联模块引入的累积误差和延迟的影响,并且通常需要大量的超参数调整以适应不同的机器人平台。为应对这些挑战,近期的工作探索了端到端的学习方法。例如,GNM(Shah et al. (2023a))、X-Nav(Wang et al. (2025a))、RING(Eftekhar et al. (2024))和X-Mobility(Liu et al. (2024))专注于提升跨不同机器人形态的零样本策略泛化能力。其他方法如iPlanner(Yang et al. (2023))、ViPlanner(Roth et al. (2024))、FDM(Roth et al. (2025))和S2E(He et al. (2025))则研究高效的训练范式,并增强点目标导航中的模拟到现实迁移。同时,像SLING(Wasserman et al. (2023))、ViNT(Shah et al. (2023b))、NoMad(Sridhar et al. (2024))和NaviDiffuser(Zeng et al. (2025))这样的方法则专注于图像目标导航。我们的模型为其双系统的两个组件都融入了强大的预训练。值得注意的是,预训练的系统1是首个在统一框架内支持无目标探索、点目标和图像目标导航的模拟到现实视觉导航策略。

用于导航的视觉-语言-动作模型 (Vision-Language-Action Model for Navigation)。近期研究越来越多地利用多模态大模型作为导航任务的预训练骨干,旨在利用其固有的常识知识来增强导航性能。一种常见方法是将导航动作表述为文本,从而将任务统一为大语言模型(LLMs)中的下一词元预测问题。例如,一系列工作(Gao et al. (2025); Wang et al. (2025c); Wei et al. (2025); Zhang et al. (2024, 2025a); Zheng et al. (2024))采用了与VLN-CE相同的离散动作空间,并定义了相应的词汇表,将其用作LLMs的响应标签。相比之下,RoboPoint(Yuan et al. (2025))和NaviMaster(Luo et al. (2025))通过将导航框架化为一个像素定位任务,规避了离散动作空间的限制。然而,其动作执行仍需要额外的模块,如相机标定和点目标导航策略。近期的方法如UniVLA(Bu et al. (2025))和TrackVLA(Wang et al. (2025d))采用端到端的范式,直接将从大语言模型(LLMs)中提取的潜在特征映射到机器人可执行的连续轨迹上。然而,这些方法通常依赖于同步框架,这限制了它们在动态开放世界中做出高频决策的能力。尽管近期有工作探索了快慢双系统架构(Bu et al. (2024); FigureAI (2025); Shi et al. (2025)),但这些方法主要针对桌面操作任务,而未解决长上下文记忆建模和在未知场景中探索的挑战。我们提出的InternVLA-N1是首个能够实现长距离指令跟随、精确规划和在未知环境中跨建筑导航的异步双系统架构。


3. InternData-N1 数据集

对于导航任务,大多数真实世界数据集(Hirose et al. (2018, 2023); Karnan et al. (2022); Shah et al. (2021))在场景多样性和规模上都受到限制。同时,互联网视频数据集(Lin et al. (2023); Liu et al. (2025))存在定位和建图信息不精确的问题,这限制了它们作为可靠导航轨迹预测数据集的可行性。相比之下,我们提出了三个在模拟中生成导航数据集的高效流程,旨在促进可扩展的训练。具体来说,InternData-N1数据集包含VLN-N1、VLN-CE和VLN-PE三个子集,它们具有互补的特性:

  • VLN-N1 是从大规模开源3D资产中收集的,并进行了广泛的领域随机化,以增强对多样化真实世界场景的泛化能力。
  • VLN-CE 提供高质量、细粒度的指令标注,这能改善长距离下游导航任务的性能。
  • VLN-PE 在基于物理的模拟中整合了低级运动控制器,通过在导航中模拟真实的机器人动力学,支持有效的模拟到现实迁移。

在这里插入图片描述

表1. InternData-N1与其他导航数据集的比较。

3.1. VLN-N1

丰富的开源场景资产为生成室内导航轨迹提供了一个理想的平台。我们使用Replica (Straub et al., 2019), Matterport3D (Chang et al., 2017), Gibson (Xia et al., 2018), 3D-Front (Fu et al., 2021), HSSD (Khanna et al., 2024) 和 HM3D (Ramakrishnan et al., 2021) 作为场景库。为了生成带有第一人称视角观测的逼真导航过程,我们通过一个多阶段路径规划过程生成一批无碰撞且平滑的轨迹。我们首先基于网格结构为每个楼层构建欧几里得符号距离场(ESDF),然后全局路径规划包含三个步骤,类似于先前的工作(Cai et al., 2025):(1) 使用A*算法为随机采样的起点和终点初始化全局路径。(2) 使用ESDF地图优化轨迹路标点。(3) 平滑轨迹。收集到的轨迹用于在BlenderProc (Denninger et al., 2020) 中渲染RGB和深度观测数据。

为了生成细粒度和长距离的任务语言指令,我们首先根据轨迹的几何信息提取关键帧,例如急转弯时对应的帧。基于提取的关键帧,整个轨迹被分割成几个子片段。然后,我们部署一个开源的多模态大模型LLaVa-OneVision (Li et al., 2024) 为每个子片段生成细粒度的语言指令。我们发现生成的指令在语言风格上有限,因此,我们采用了另一个语言模型——Qwen3-72b (Yang et al., 2025) 来重写每个片段的语言指令,并将所有子片段的指令总结成一条用于长距离任务的指令。遵循上文图3所示的流程,我们构建了一个新的大规模导航数据集VLN-N1。数据集的比例详情和统计指标如图2所示。

在这里插入图片描述

图2. VLN-N1数据集概览。左图显示了数据集的构成比例,右图展示了标注指令中的关键词。

在这里插入图片描述

图3. VLN-N1数据集的数据处理流程。

3.2. VLN-CE

VLN-CE数据集来源于已有的视觉-语言导航基准,包括VLN-CE (Krantz et al., 2020b)、EnvDrop (Tan et al., 2019) 和ScaleVLN (Wang et al., 2023a),这些基准是为训练通用室内导航模型而设计的。我们使用Habitat模拟器 (Szot et al., 2021) 渲染来自Matterport3D (Chang et al., 2017) 和HM3D (Ramakrishnan et al., 2021) 的场景,然后重播其中的回合以收集我们的数据集。具体来说,我们利用Habitat中内置的ShortestPathFollower智能体,通过遵循预定义的参考路径生成轨迹,每条路径都对应一条对齐的细粒度自然语言指令。动作空间遵循Habitat默认的VLN任务配置,包括四个离散动作:MOVE_FORWARD (0.25m), TURN_LEFT (15°), TURN_RIGHT (15°), 和 STOP。对于每个回合,我们记录了RGB观测数据及其对应的动作序列。总共,我们收集了332,179个回合,涵盖了Matterport3D和HM3D数据集中856个独立场景。为了使该数据集适用于训练系统2,我们将原始轨迹分割成多个片段,并将智能体的位置投影到2D图像平面上,作为像素目标的标签。更多细节见4.2节。

3.3. VLN-PE

VLN-PE数据集旨在通过在物理模拟平台InternUtopia (Wang et al., 2024a) 中收集反映真实机器人运动的数据,来弥合视觉-语言导航(VLN)任务中模拟与现实之间的差距。与之前的VLN-N1和VLN-CE不同,VLN-PE在其数据收集中明确地整合了机器人形态和运动策略。我们采用了一系列不同的机器人平台,包括四足机器人 (Unitree AlienGo)、人形机器人 (Unitree H1和G1) 和轮式机器人 (Jetbot),并使用现有的基于学习的运动控制器 (Long et al., 2024a,b; Pan et al., 2025) 来控制它们的运动。每个机器人的任务是遵循一条与自然语言指令对齐的预定义导航路径,从而产生相应的第一人称视角观测。语言指令和路径主要来源于R2R数据集 (Anderson et al., 2018a),并进行了一些修改。具体来说,我们排除了涉及楼梯穿越(即上楼或下楼)的回合,因为当前的运动策略无法稳健地处理这种情况。最终的VLN-PE数据集包含8,679个回合,涵盖了来自Matterport3D数据集 (Chang et al., 2017) 的61个场景。


4. 方法

4.1. 概览

如图4所示,InternVLA-N1采用了一种组合式架构,其双系统设计将高级指令理解与低级动作执行协同结合。具体来说,我们的系统集成了:

  • 系统2:一个基于视觉-语言模型(VLM)的规划模块,通过图像定位推理来解释导航指令,以预测中期的路标点目标。通过预测图像空间中的像素坐标,它有效地将指令理解与空间推理联系起来,从而实现长距离导航指令的遵循。
  • 系统1:一个由潜在规划或支持的显式目标引导的多模态目标条件扩散策略,它根据当前的观测数据和来自系统2的异步潜在特征,生成可执行的短期轨迹。它支持在复杂环境中进行稳健的实时控制和局部决策。

为了充分发挥双系统架构在开放世界中的泛化能力和异步推理能力,我们设计了一个课程学习式的训练方案。初始阶段,每个系统在同步设置下使用显式目标分开训练,以掌握基本的导航技能。然后,引入一个联合微调阶段。在此阶段,我们将可学习的令牌引入系统2,作为隐式中期目标,以减少基于像素的目标的模糊性。此外,系统2被输入延迟的观测数据,这迫使系统1适应异步执行。更多技术细节将在下一节中提供。

在这里插入图片描述

图4. InternVLA-N1框架概览。系统2以2Hz的频率感知长时程的多模态输入并将其转化为中期潜在规划,而系统1则处理异步的潜在规划以及短期的视觉观测,以实现实时决策。

4.2. 系统2:基于像素定位的视觉-语言模型规划

我们的目标规划模块建立在Qwen-VL-2.5 (Bai et al., 2025) 之上,这是一个强大的、能够进行空间定位的开源视觉-语言模型。Qwen-VL-2.5由三个主要部分组成:一个视觉编码器、一个语言模型和一个用于模态融合的轻量级多模连接器。它通过直接预测像素坐标来响应空间查询,从而支持定位任务,这使其特别适用于需要细粒度定位的任务,如指代表达式理解和视觉问答。

为了使Qwen-VL-2.5适应视觉-语言导航(VLN),我们将高级规划表述为一个最远像素目标预测问题。该模型将一系列第一人称视角图像和语言指令作为输入,并预测图像内的一个2D坐标,该坐标对应于下一个优选的导航路标点。我们使用InternData-N1的VLN-CE子集对Qwen-VL-2.5进行微调。通过测量智能体位置与相机视野之间的可见性,我们将每个原始的VLN-CE轨迹划分为多个最远像素预测训练样本,最终生成超过500万个样本用于对齐导航规划任务。此外,系统2负责在任务完成时决定何时停止,并在图像中未检测到合适的导航路标点时执行原地旋转。与直接的动作预测相比,我们的方法提供了一种更有效的机制,将多模态理解与空间决策联系起来。

4.3. 系统1:一个多目标条件的扩散策略

我们的系统1模型是一个基于扩散的本地导航策略,专为实时避障和路径规划而设计。它采用了与我们先前工作NavDP (Cai et al., 2025) 相似的架构,该工作能同时预测导航轨迹及其对应的轨迹选择安全评分。为了提升在不同类型目标下的导航性能,我们引入了一个显式的目标嵌入对齐作为额外的训练目标。

具体来说,我们将点目标视为一种通用且无歧义的目标规范形式。我们整合了两个辅助的预测头,它们分别以图像目标和像素目标的嵌入作为输入,并以点目标作为标签进行监督。目标对齐损失与动作损失和评价损失(critic loss)相结合,构成了总的训练目标。通过引入目标对齐目标,所有类型的导航任务都被隐式地转换为点目标导航任务,从而显著降低了学习的复杂性。系统1使用VLN-N1子集进行训练。

4.4. 分层联合训练

阶段1:单系统预训练。系统2的训练始于一个视觉-语言模型(Qwen-VL-2.5 7B模型),该模型已在海量图文语料上进行了预训练。我们通过任务自适应的监督式微调,使其适应于导航特定的规划任务。具体来说,我们使用由导航指令、第一人称视角观测和中期路标点组成的配对轨迹。在此设置中,每个中期路标点表示为当前观测图像像素空间中的一个2D坐标。在训练期间,所有组件——包括视觉编码器、跨模态连接器和语言模型——都使用我们精心策划的SFT数据集进行一个周期的联合优化。模型学习在上下文中解释指令,并预测图像上与预期导航路标点对齐的像素级目标位置。

系统1模型的所有组件都从零开始训练,除了DepthAnything (Yang et al., 2024) RGB编码器。系统1模型的训练有三个主要目标:不同目标间的嵌入对齐、扩散策略的噪声预测和评价预测(critic prediction)。对于嵌入对齐,我们添加了两个辅助的点目标预测任务,输入分别是图像目标编码或像素目标编码。这有助于从零开始训练的目标编码器捕捉导航任务的重要表示。具体来说,将图像目标表示为 Ig∈RC×H×WI_g \in R^{C \times H \times W}IgRC×H×W,像素目标表示为 cg=(u,v)c_g = (u,v)cg=(u,v),当前RGB观测为 It∈RC×H×WI_t \in R^{C \times H \times W}ItRC×H×W,点目标为 pg=(x,y,θ)p_g = (x, y, \theta)pg=(x,y,θ)。为了编码像素目标 cgc_gcg,我们首先将其转换为一个图像掩码 MgM_gMg,其中只有 (u,v)(u,v)(u,v) 附近的局部区域被设为1,其他像素为0。然后,我们使用两个从零开始训练的ViT编码器来融合 (Ig,It)(I_g, I_t)(Ig,It)(Mg,It)(M_g, I_t)(Mg,It)。编码后的嵌入 zi=fimg(Ig,It)z_i = f_{img}(I_g, I_t)zi=fimg(Ig,It)zp=fpix(Mg,It)z_p = f_{pix}(M_g, I_t)zp=fpix(Mg,It) 被连接到一个额外的MLP层来预测估计的点目标。然后,目标对齐损失可以写成:
在这里插入图片描述

此外,扩散过程和评价预测的训练损失遵循NavDP中引入的方法。我们联合优化动作损失、评价损失和目标对齐损失,并使用权重系数进行平衡。我们设置系数为 α=0.8,β=0.2,γ=0.5\alpha=0.8, \beta=0.2, \gamma=0.5α=0.8,β=0.2,γ=0.5。总的训练目标定义为:
在这里插入图片描述

阶段2:多系统联合微调。用一个2D像素来表示一个精确的3D导航目标是模糊的,并且在嵌入式设备上为一个7B参数的VLM执行高速推理是具有挑战性的。因此,能够桥接不同系统的中间特征连接的设计至关重要。这样的中间体应保留原始系统的优势——不降低其效率或表示能力——同时能让这些功能互补的系统之间实现有效的信息流。我们没有直接使用VLM的隐藏状态(其中混合了大量异构信息),而是引入了一组可学习的潜在查询。输出的潜在特征作为紧凑的中间体,通过提示调整(prompt tuning)桥接了视觉-语言模型(VLM)和扩散策略模型。此外,我们调整了两个系统输入的时间对齐,以适应异步执行。具体来说,系统1接收时间步 TTT 的最新观测,而输入到系统2的RGB记忆则从一个更早的时间步 (0,T−K)(0, T-K)(0,TK) 范围中采样,其中 KKK 是从 (0,12)(0, 12)(0,12) 范围中随机选择的间隔。这种时间上的解耦使得双系统框架能更好地适应异步执行。

4.5. 扩展:通过世界模型学习更好的潜在规划

为了构建更好的潜在规划表示,我们通过使用一个预测性世界模型解码器来生成朝向中期目标的自我中心观测序列,从而对我们的模型进行了扩展。这种范式可能带来可利用互联网视频进行的可扩展训练,并隐式增强动态环境中的预测能力。具体来说,我们采用预训练的1.3B参数的Wan2.1模型 (Wan et al., 2025) 作为我们的骨干,用系统2生成的潜在规划令牌替换其原始的基于T5的编码器 (Raffel et al., 2020)。在InternData-N1导航数据集上进行微调后,该世界模型能够根据系统2输出的潜在规划,模拟具有高预测准确性的未来结果。


5. 实验
5.1. 系统2评估

数据集与评估指标。我们在R2R-CE (Anderson et al., 2018a) 和 RxR-CE (Ku et al., 2020) 基准上评估系统2,这两个基准都是在VLN-CE (Krantz et al., 2020b) 的设定下,使用Habitat模拟器建立的。这些基准模拟了在Matterport3D环境中的逼真室内导航,要求智能体在连续控制下遵循自然语言指令。R2R-CE提供纯英文指令,路径相对较短,而RxR-CE是一个大规模的多语言基准,轨迹更长且更多样化。

为了评估系统2的泛化能力,我们在两个基准的未见(validation unseen)分割集上进行所有实验。遵循先前的工作,我们采用标准的VLN指标:导航误差 (Navigation Error, NE),衡量最终位置与目标的距离;成功率 (Success Rate, SR),智能体在距离目标3米内停止的回合百分比;理想成功率 (Oracle Success Rate, OSR),考虑路径上离目标最近的点;以及路径长度加权成功率 (Success weighted by Path Length, SPL),用于惩罚不必要的长轨迹。这些指标全面评估了指令遵循的有效性和效率。

主要结果。我们将我们的方法与三大类VLN基线进行了比较:(1) 使用全景图像、里程计和深度等丰富传感器的基线 (例如, HPN+DN, CMA, GridMM, ETPNav);(2) 依赖深度和单张第一人称RGB图像,但未利用大规模视觉-语言模型的VLN方法 (例如, CM2, LAW, WS-MGMap);(3) 基于视频-LLM且仅使用单张RGB图像作为输入的VLN模型 (例如, NaVid, MapNav, NaVILA, UniNaVid)。InternVLA-N1在两种设置下进行评估:仅RGB (S2) 和 RGB+深度 (S1+S2)。如表2所示,我们的仅RGB变体已经超越了所有先前基于RGB的方法,在R2R Val-Unseen上实现了55.4%的成功率(SR)和52.1%的SPL,超过了NaVILA (SR: 54.0%, SPL: 49.0%) 和 MapNav (SR: 39.7%, SPL: 37.2%)。

5.2. 系统1评估

数据集与评估指标。为了评估系统1的泛化能力和鲁棒性,我们使用IsaacSim构建了一个模拟基准,该基准反映了真实机器人部署中可能遇到的模拟-真实差距。我们收集了多种多样的场景以进行全面评估。这些场景包括两大类:具有杂乱障碍物的随机生成布局,以及覆盖住宅和商业环境的专业设计布局 (Wang et al., 2024a)。评估场景的概览如图5所示。我们将所有评估环境分为四个子集:ClutterEnv-Easy (10), ClutterEnv-Hard (10), InternScenes-Home (20), InternScenes-Commercial (20)。数字代表评估场景资产的数量。我们在一个轮式机器人上评估了环境中的三种本地导航任务。对于无目标探索任务,我们测量 回合时间 (Episode Time)探索面积 (Explore Area) 来评估避碰和探索技能。对于点目标导航和图像目标导航任务,我们评估 成功率 (SR)路径长度加权成功率 (SPL)。如果智能体在距离目标点1.0米内到达,则该回合定义为成功。对于每个任务,机器人在每个场景中被随机初始化并评估100个回合。

在这里插入图片描述

表2. 在VLN-CE R2R和RxR Val-Unseen分割集上与当前最优方法的比较。* 表示方法使用了来自Hong et al. (2022) 的路标点预测器。† 表示方法使用了R2R-CE和RxR-CE基准之外的额外训练数据。

在这里插入图片描述

图5. 用于系统1评估的ClutteredEnv和InternScenes场景概览。顶行来自ClutterEnv,底行来自InternScenes-Home。

主要结果。我们将我们的系统1模型与多种多样的基线方法进行比较。基线包括用于图像目标和无目标任务的GNM (Shah et al., 2023a)、ViNT (Shah et al., 2023b) 和 NoMad (Sridhar et al., 2024),以及用于点目标导航任务的DD-PPO (Wijmans et al., 2019)、iPlanner (Yang et al., 2023) 和 ViPlanner (Roth et al., 2024)。主要结果呈现在图6、图7和图8中。我们发现我们的系统1拥有几个独特的性能,使其能够大幅超越基线方法。(1) 在分布外场景中的鲁棒避碰行为:尽管大部分训练数据来自室内场景,它在ClutterEnv场景的无目标探索任务中,性能比NoMad好2.7倍。(2) 高效且一致的路径规划能力:在具有复杂室内布局的InternScenes场景中,我们的系统1模型在推断不同区域间的连通性方面表现出色,成功率比先前方法高10.9%。(3) 图像驱动的探索:当目标图像位于远处时,大多数先前的本地导航方法在图像目标导航上会失败。然而,我们的模型能够自适应地平衡探索和利用,性能比先前方法平均好27.1%。

在这里插入图片描述

图6. 系统1在无目标探索任务上的评估指标。我们的InternVLA-N1(S1)模型性能得分超过基线方法的两倍。

在这里插入图片描述

图7. 系统1在点目标导航任务上的评估指标。我们的InternVLA-N1(S1)在所有环境中都持续优于先前的SOTA方法。

在这里插入图片描述

图8. 系统1在图像目标导航任务上的评估指标。我们的InternVLA-N1(S1)模型平均性能比基线方法好27.1%。

5.3. 双系统评估

数据集与评估指标。我们首先在与系统2评估相同的VLN-CE基准上评估我们的双系统,方法是用我们的系统1替换Habitat-Sim中默认的点目标导航策略。我们进一步在VLN-PE (Wang et al., 2025b) 上评估我们的双系统,这是一个模拟机器人动力学和在真实世界部署中遇到的控制误差的物理逼真VLN平台和基准。我们考虑R2R数据集 (Anderson et al., 2018a) 与VLN-PE中的人形机器人Unitree H1。

遵循标准的VLN评估协议 (Anderson et al., 2018a; Krantz et al., 2020b),我们采用五个主要指标:轨迹长度 (Trajectory Length, TL) 量化智能体导航轨迹的平均长度,单位为米。导航误差 (Navigation Error, NE) 记录智能体最终停止位置与指定目的地之间的平均距离。成功率 (Success Rate, SR) 表示智能体成功到达目的地的概率。注意,如果智能体在目标位置3米半径内停止,则视为到达目的地。理想成功率 (Oracle Success Rate, OS) 指智能体导航轨迹中任何一点到达目的地的概率。路径长度加权成功率 (SR weighted by Path Length, SPL) 平衡了SR和TL。对于物理模拟,还应用了两个额外指标:摔倒率 (Fall Rate, FR) 衡量机器人摔倒的频率,卡住率 (Stuck Rate, StR) 衡量智能体无法移动的发生次数。

主要结果。表2中显示的结果表明,在R2R和RxR基准上,双系统相比于单独的系统2,成功率进一步提升了2.8%和4.1%。这凸显了两个系统间协调的重要性以及系统1在避碰和路径规划方面的卓越性能。基线方法包括Seq2Seq (Krantz et al., 2020b)、CMA (Krantz et al., 2020b)、RDP (Wang et al., 2025b) 和 NaVid (Zhang et al., 2024)。Seq2Seq是一个序列到序列模型,使用循环策略从RGBD观测中预测下一个动作。CMA利用Seq2Seq的RGBD特征和指令之间的跨模态注意力来预测下一个动作。RDP采用基于Transformer的扩散解码器来预测连续的相对位移和偏航角。NaVid是一个基于视频的大型视觉语言模型,旨在实现更好的泛化并消除Sim2Real差距,同时不需要深度或里程计输入。

表3展示了在带有物理运动控制器的VLN-PE上的结果。尽管InternVLA-N1没有使用任何来自VLN-PE的H1机器人数据进行微调,它仍然显著优于所有在VLN-PE上训练的模型,成功率(SR)至少提高了17%。此外,与在VLN-PE上表现出良好零样本迁移性能的单系统模型NaVid相比,InternVLA-N1展现出显著的优越性能,SR和SPL分别提升了20.21%和17.22%。这些结果凸显了我们双系统集成设计的强大泛化能力和鲁棒性。

表4展示了在带有闪现控制器(flash controller)的VLN-PE上的结果。由于闪现控制器直接将智能体传送到目标坐标,智能体不会卡住也很少遇到摔倒事件。在排除了涉及运动动力学和卡住情况的挑战后,InternVLA-N1的性能显示出进一步的提升,与在VLN-PE上训练的模型相比,成功率(SR)至少提高了35%。

在这里插入图片描述

表3. 在带有物理运动控制器的VLN-PE基准上的评估指标。+: 模型首先在Habitat上训练,然后在VLN-PE上微调。†: 模型使用数据增强进行训练。

在这里插入图片描述

表4. 在带有闪现控制器的VLN-PE基准上的评估指标。

5.4. 扩展:世界模型定性结果

我们的世界模型经过微调,以系统2生成的潜在规划令牌为条件,并生成相应的、描绘朝向预期目标导航的自我中心视频序列。我们在模拟和真实世界环境中评估了生成视频的质量。定性结果(图9)表明,世界模型有效地生成了朝向可视化像素级目标的逼真导航轨迹,同时保留了精细的视觉细节并维持了一致的几何结构。此外,我们发现整合视频预测目标可以加速联合调优,将R2R-CE基准上达到最佳评估性能所需的训练周期从4个减少到仅2个。

5.5. 真实世界实验

实验设置。我们在轮式(Turtlebot4)、四足(Unitree Go2)和人形(Unitree G1)机器人上进行真实世界实验。所有机器人都配备了英特尔实感D455相机,它们安装在不同的高度,但都向下倾斜15°。我们将整个系统部署在一台配备RTX 4090 GPU的远程机器上。InternVLA-N1模型大约占用20GB的GPU内存。我们在多个室内和室外场景中评估零样本指令遵循和障碍物规避性能。

流程与速度。最初给定一条VLN指令,机器人持续捕捉实时的对齐图像(RGB和深度)并将其传输到远程服务器进行推理。服务器在后台执行双系统模型的异步推理,并将最新的轨迹或离散动作返回给机器人。轨迹将根据推理图像时的里程计信息转换到世界坐标系,并由一个MPC控制器进行跟踪。我们复用系统2多轮对话中的KV缓存,将轨迹令牌的推理速度从大约1.1秒加速到0.7秒。通过使用TensorRT进行优化,我们的系统1模型能在大约0.03秒内并行生成32条轨迹。得益于异步流程和推理优化,机器人在上一条轨迹被完全跟踪结束后可以获得新的轨迹,从而实现更平滑的运动。当到达语言指令的目标时,系统2将输出STOP标志。一个真实世界实验被认为是成功的,如果 (1) 机器人在所有静态和动态障碍物面前保持无碰撞,(2) 机器人通过所有期望的地标并停在期望的目标处。

主要结果。我们选择了几个有代表性的真实世界场景,如办公室、食堂、街道和便利店进行评估。请注意,所有真实世界实验都是零样本的,没有为微调我们的模型收集任何特定场景的数据。定性结果呈现在图10中。得益于双系统模式,InternVLA-N1能够感知动态环境的高频图像,并规划反应性的无碰撞轨迹以完成长距离视觉语言导航任务(面板1)。在食堂的评估(面板2)显示,我们的整个系统选择了正确的像素目标,并在杂乱的环境中生成了安全的轨迹。对于长距离指令遵循和语义理解,我们的整个系统规划了平滑的轨迹,以通过所有期望的地标,并停在办公室和街道的最终目标(面板3和4)。我们的整个系统在整个过程中对动态行人、楼梯和变化的光线表现出鲁棒性。此外,我们进行了实验(面板5和6)来测试我们的系统在类似人类的简短指令上的能力,而不是我们训练集中的分步指令。结果表明,机器人在某些情况下也能理解这些指令并完成任务。我们的InternVLA-N1模型在不同的真实世界平台上都很鲁棒。尽管不同的机器人在相机高度、振动和跟踪性能上存在差异,InternVLA-N1仍然很好地完成了VLN任务。有关我们实验的详细演示,请参考我们的主页。

在这里插入图片描述

图9. InternVLA-N1世界模型的定性结果。前两行显示了在真实世界场景中的预测结果,后两行显示了在未见过的模拟场景中的结果。

在这里插入图片描述

图10. InternVLA-N1在多样化场景中的真实世界实验可视化。

基线与指标。为了定量评估InternVLA-N1在真实世界场景中的鲁棒性和泛化能力,我们比较了我们的模型与其他基线方法在走廊(简单VLN指令)、卧室(单个房间中的中等难度VLN指令)和办公室(房间到房间的困难VLN指令)场景中的性能。基线包括传统的基于学习的方法CMA (Krantz et al., 2020a),基于VLM的方法NaVid (Zhang et al., 2024)、NaVILA (Cheng et al., 2025) 以及我们之前输出离散动作的工作StreamVLN (Wei et al., 2025)。我们在每个场景中为每个模型进行了20次实验,旨在观察执行VLN任务的 成功率(SR)导航误差(NE)。定量和定性结果显示在图11和12中。

轻量级模型CMA只能在简单场景和指令下完成VLN任务,其SR显著低于基于VLM的方法。这种优势可能归因于它们从VLM基础模型继承的强大视觉-语言理解能力。在所有基于VLM的方法中,NaVid在行进一段距离后倾向于原地旋转,并在复杂指令下失败。NaVILA展示了长距离指令遵循能力,但它在复杂的办公室场景中,未能根据语言指令导航到最终目标。相比之下,StreamVLN在长距离静态场景中表现出优越的性能,但当动态障碍物(如行人)阻挡其路径时,其SR较低。我们的InternVLA-N1双系统模型在静态和动态场景中都取得了良好的SR和NE。它可以避开环境中出现的动态行人,并成功完成最终的VLN任务。

在这里插入图片描述

图11. 不同VLN方法的定量指标。

在这里插入图片描述

图12. 不同方法在真实世界中的行为比较和失败分析。

6. 结论

在本报告中,我们介绍了InternVLA-N1,这是首个双系统视觉-语言导航基础模型。我们的异步框架在一个统一的架构内集成了多模态推理、指令遵循、长距离规划和实时动态障碍物规避。这些能力在开放世界设置中展示了强大的零样本泛化能力,并且可以直接部署在多种多样的机器人平台上。该领域一个持续的挑战是可用导航数据集的规模有限。为了解决这个问题,我们还发布了InternData-N1,一个大规模、高质量的数据集,旨在支持复杂的导航任务。我们希望我们所有开源的资源将有益于更广泛的研究社区,并促进具身AI和机器人导航领域的持续进步。

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐