综述：从物理模拟器和世界模型中学习具身智能（下）

25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。

硅谷秋水

2067人浏览 · 2025-07-10 00:15:00

硅谷秋水 · 2025-07-10 00:15:00 发布

25年7月来自南京大学、香港大学、中南大学、地平线机器人公司、中科院计算所、上海交大、慕尼黑工大和清华大学的论文“A Survey: Learning Embodied Intelligence from Physical Simulators and World Models”。

对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能关注的是能够在物理世界中感知、推理和行动的智体。实现强大的具身智能不仅需要先进的感知和控制能力，还需要将抽象认知应用于现实世界交互的能力。物理模拟器和世界模型这两项基础技术已成为实现这一目标的关键推动因素。物理模拟器为训练和评估机器人智能体提供受控的高保真环境，从而能够安全高效地开发复杂行为。相比之下，世界模型赋予机器人对其周围环境的内部表征，使其能够进行超越直接感官输入的预测性规划和自适应决策。本综述系统地回顾通过整合物理模拟器和世界模型来学习具身人工智能的最新进展。其分析它们在增强智能机器人的自主性、适应性和泛化能力方面的互补作用，并讨论外部模拟和内部建模在弥合模拟训练与现实世界部署之间差距方面的相互作用。

。。。。。。继续。。。。。。

受人脑形成世界内部表征的能力启发，世界模型已成为人工智能领域的关键框架。这些模型使智体能够预测未来状态并规划行动，模仿人类导航和与环境互动的认知过程。2018 年，David Ha & Jurgen Schmidhuber 提出了世界模型的概念 [18]，表明人工智能可以学习其环境的压缩生成模型，并利用它来模拟体验，从而促进强化学习，而无需与现实世界直接交互。

随着该领域的发展，视频生成模型的进步显著增强了世界模型的能力。自 2024 年初以来，Sora [263] 和 Kling [264] 等视频生成模型凭借其高保真视频合成和对物理世界的真实建模，引起了学术界和工业界的广泛关注。关于 Sora 的技术报告 [263]，强调了将视频生成模型用作模拟物理世界鲁棒引擎的潜力。导航世界模型 (NWM) [265] 采用条件扩散Transformer (CDiT) 根据过去的经验和导航行为预测未来的视觉观察，这使得智体能够通过模拟潜路径并评估其结果来规划导航轨迹。Yann LeCun 也强调基于视频世界模型的重要性，他指出人类通过视觉体验，尤其是通过双目视觉来发展对世界的内部模型。他认为，人工智能要达到人类水平的认知，就必须以类似于人类的方式学习，主要通过视觉感知。这种观点强调了将视频数据集成到世界模型中以捕捉丰富的空间和时间信息的重要性。他进一步提出视频联合嵌入预测架构 (V-JEPA) 模型 [266]，该模型旨在通过预测视频的缺失部分来学习视频的抽象表示，从而为构建更强大的视觉世界模型提供新思路。基于这些见解，视频生成模型的最新发展旨在创建更复杂的世界模型，以表示和理解动态环境。通过利用大规模视频数据集和先进的神经架构，这些模型努力复制人类感知和与世界互动的方式，为更先进、适应性更强的人工智能系统铺平道路。

请添加图片描述

世界模型的代表性架构

为了有效地捕捉复杂环境的动态，世界模型已经演变成一系列多样化的架构范式，每种范式都反映了对如何表示和预测世界的不同视角。从早期紧凑的潜动态模型到近期强大的生成式架构，这些模型在状态编码、时间依赖处理和未来观测建模方面各不相同。一些方法优先考虑在潜空间中进行高效的状态抽象和预测学习，而另一些方法则侧重于高保真度生成未来感官输入，例如视频或 3D 场景。同时，序列建模、自监督学习和生成式建模的进步，尤其是 Transformer 和扩散模型的进步，深刻地影响现代世界模型的设计。世界模型架构演变的概览如图所示。

请添加图片描述

如图所示：自回归Transformer和视频扩散模型的世界模型比较

请添加图片描述

世界模型的核心作用

除了架构设计之外，理解世界模型在智能系统中的作用也同样重要。作为环境的通用表示，世界模型在各个领域都发挥着关键作用。它们抽象和预测环境动态的能力使它们能够支持远超简单重建任务的下游应用。世界模型所承担的三个核心作用如下：1）作为神经模拟器，生成可控、高保真合成体验；2）作为动态模型，支持基于模型的强化学习中的规划和决策；3）作为奖励模型，在缺乏密集或明确定义的奖励的情况下，帮助提取有意义的训练信号。这些观点不仅反映了世界模型的实际效用，也指导了未来利用世界模型进行智体研究方向。

世界模型作为神经模拟器

生成式世界模型的兴起，开启了在视觉和动作领域模拟复杂可控环境的潜力。这些模型能够合成时间连贯且基于语义的视频，这些视频以文本、图像和轨迹等多样化输入为条件，从而为自动驾驶、机器人和虚拟智体提供可扩展的训练和评估。
视频和 3D 生成模型作为神经模拟器，能够实现可控、高保真且结构丰富的世界合成，是训练智体传统模拟器的可扩展替代方案。随着模型表达能力和控制能力的提升，它们在模拟、稀有事件合成和数据驱动决策中的作用预计将在自动驾驶、人形机器人等领域不断增强。

世界模型作为动态模型

在基于模型的强化学习 (MBRL) 中，智体会构建环境的内部模型。该模型通常包括动态模型、奖励模型和策略模型。智体使用该模型模拟与环境的交互，从而帮助其做出更明智的决策，如图所示。智体并非仅仅依赖于现实世界的交互，而是从收集的经验中学习动态模型和奖励模型，然后在模拟环境中进行规划或策略学习。这种环境建模与策略优化的解耦显著提高了样本效率，这在数据收集成本高、速度慢或风险高的场景中尤为重要。

请添加图片描述

世界模型可以作为基于模型强化学习（MBRL）中的通用动态模型，通过学习预测基于过去交互的未来状态或观察结果。世界模型不依赖于手工编写的符号规则或低维物理模拟器，而是直接从数据中学习环境动态的内部表示。这些模型使智体能够模拟假设的未来、执行规划部署并通过想象的经验优化行为。根据设计的不同，世界模型可以在像素空间、潜空间或结构化表示中运行，但它们的共同目标是以支持高效策略学习的方式捕捉环境的时间演变。这种建模灵活性使世界模型能够跨任务泛化，整合丰富的感知输入，并作为复杂领域决策的可扩展基础。

世界模型作为一种动态模型，使智能体能够基于环境动态进行学习、模拟和规划。无论是在潜空间还是高维视觉空间中实现，它们都将感知、预测和决策统一在一个生成框架中，构成了现代 MBRL 系统的骨干。

世界模型作为奖励模型

设计有效的奖励信号仍然是强化学习 (RL) 中的一个基本挑战，尤其是在开放式或复杂的环境中。传统方法通常依赖于手动设计的奖励函数，这些函数定义成本高昂，并且可能无法捕捉到有意义的行为线索。这种局限性促使人们开发出能够从弱监督或未标记数据（例如原始视频）中自动推断奖励的方法。

生成式世界模型（尤其是那些经过视频预测训练的模型）的最新进展，为奖励推理提供了一个充满希望的方向。这些模型能够学习捕捉专家演示的底层动态和结构，从而使其能够充当隐式奖励模型。关键在于，如果智体的行为导致模型更容易预测的轨迹，那么它很可能与训练数据中嵌入的隐式偏好相一致。因此，模型的预测置信度可以被解读为一种学习的奖励信号。

自动驾驶和关节机器人（包括机械臂、四足机器人和人形机器人）是人工智能和具身智能的两个关键应用。自动驾驶汽车可以看作是一种有四个轮子的智能机器人，与人形机器人相比，它的行动空间更小。同样，自动驾驶是人工智能的一个重要应用，对世界建模提出了严格的要求。此外，自动驾驶系统需要实时理解和预测复杂和动态的道路环境。

作为世界模型的视频生成模型已经展示了捕捉物理和动态交互的能力，这使得它们非常适合高度动态、高风险的自动驾驶环境。关节机器人（包括机械臂、四足机器人和人形机器人）作为具身智能的核心载体，对世界建模提出了独特而严格的要求。与自动驾驶类似，机器人系统也需要预测和理解周围环境，以便在以人为中心的环境中执行复杂的定位操作任务。

自动驾驶机器人和关节机器人在实际应用中都需要与现实世界进行丰富、长期且安全的交互，这对现实世界的精确且可预测的建模提出很高的要求。

自动驾驶的世界模型

传统的自动驾驶架构采用模块化设计，感知、预测、规划和控制模块相互独立 [304], [305]。这种设计虽然有利于开发和测试，但也存在严重的局限性：感知模块中的误差在处理过程中会累积和放大 [306]，长期依赖关系的时间建模仍然具有挑战性 [307]，并且在不熟悉的场景中性能会显著下降，正如 2018 年优步自动驾驶汽车事故所证明的那样，尽管系统在撞击前 5.6 秒就检测到了行人，但仍然多次未能正确识别行人 [308]。

特斯拉在自动驾驶和机器人研发方面采用类似的视觉编码架构 [309]，这反映了感知技术的共性。基于视频生成的世界模型已成为自动驾驶研究的重点领域，从早期的基础模型发展到如今在场景生成、多视角一致性、闭环仿真和推理方面取得显著进展的复杂系统。与之前讨论的通用视频生成世界模型不同，专为自动驾驶设计的世界模型优先考虑交通场景的独特特征和安全需求，并由此催生出了一些值得关注的技术方法和应用范例。

自动驾驶世界模型分为三类，如图所示：神经模拟器、动态模型和奖励模型。

请添加图片描述

如图展示三种具有代表性的自动驾驶世界模型流程：

请添加图片描述

技术趋势及其影响

自动驾驶世界模型的演变揭示了四大技术趋势，这些趋势正在重塑处理车辆仿真和测试的方式：

生成式架构从自回归模型到扩散模型的演变：早期的自动驾驶世界模型（例如 GAIA-1）采用了自回归 Transformer 架构，通过顺序 token 生成来预测未来驾驶场景。虽然这些方法在学习高级场景结构方面表现出强大的能力，但由于 token 预测的顺序性，它们在生成长时间、高保真驾驶视频时面临着巨大的计算挑战。此后，该领域见证了向基于扩散模型的范式转变，以 DriveDreamer 系列、GAIA-2 和 WoVoGen 为代表，这些模型对生成质量具有卓越的控制能力。现代混合架构开始出现，它们将自回归与基于扩散的场景生成相结合。在MagicDrive-V2等模型中集成扩散 transformer（DiT）代表了最新的发展，它将 transformer 注意机制的优势与基于扩散的生成机制相结合。

多模态集成和可控场景生成：最近的自动驾驶世界模型已经从简单的图像到图像生成发展到复杂的多模态系统，集成了多种输入类型，包括摄像头图像、激光雷达点云、文本描述、车辆轨迹和高清地图。这一发展解决了自动驾驶汽车测试中的根本挑战：需要生成特定的、可控的驾驶场景，以便在精确定义的条件下对驾驶系统的不同方面进行压力测试。GAIA-2 和 DriveDreamer-2 等模型体现了这一趋势，它们接受结构化输入，例如自车动力学、多智体配置、环境因素（天气、时间）和道路语义，从而实现对生成场景的细粒度控制。这种多模态方法还有助于生成可覆盖360度的同步多摄像头视图。这些进步将世界模型转变为主动模拟工具，可以探索各种可能的驾驶场景，从而更高效地验证自动驾驶系统。

3D时空理解和基于占用的表示：自动驾驶世界模型中出现的一个基本分支是建立全面的 3D 时空建模，以更好地捕捉驾驶环境的真实本质。早期模型主要侧重于生成逼真的摄像头图像，但这种方法未能提供训练鲁棒感知系统所必需的几何一致性和3D理解能力，而这些系统必须推理真实驾驶场景中的物体深度、遮挡和空间关系。 OccSora、Drive-OccWorld 和 OccWorld 等框架体现了向 3D 感知建模的过渡，这些框架通过 4D 占用网格来表示驾驶场景，并以统一的表示形式编码空间结构和时间动态。这种 3D 感知建模功能使世界模型不仅可以用作数据生成器，还可以用作综合模拟器，预测驾驶场景如何响应自主车辆动作而演变。在 GaussianWorld 和 MagicDrive3D 等模型中集成高斯分布等技术，进一步增强了生成场景的几何保真度，从而实现了新视图合成，并支持开发更鲁棒的感知算法。

与自动驾驶流程的端到端集成：现代自动驾驶世界模型越来越多地不再被设计为独立的模拟工具，而是被设计为模块化端到端自动驾驶的预测组件。 MILE、LAW、Think2Drive 和 WoTE 等模型通过联合学习世界动态和驾驶策略体现了这种集成方法，实现了端到端优化，可以最大限度地减少不同系统组件之间的错误累积。这种集成扩展到奖励建模功能，其中 Vista 和 Drive-WM 等框架使用自己的模拟功能来评估轨迹安全性并指导策略学习，而无需手动设计奖励函数。Doe-1 和 DrivingGPT 等先进的集成系统展示了世界模型如何在单个神经架构中统一感知（场景理解）、预测（未来状态预测）和规划（动作生成），该架构将所有模态视为统一序列建模问题中的token。这种集成趋势的最终目标是创建能够在统一学习的表示中推理环境、预测未来状态和规划安全行动的自动驾驶系统。

下表是基于世界模型的自动驾驶方法比较：

请添加图片描述

关节机器人的世界模型

关节机器人（包括机械臂、四足机器人和人形机器人）作为具身智能的核心载体，对世界模型提出了独特而严格的要求。

世界模型 (WM) 作为关节机器人的神经模拟器

世界模型 (World Model) 充当神经模拟器，通过学习从多模态输入（例如文本、图像、轨迹）生成时间连贯且语义丰富的物理环境表示。这些生成模型提供了一种可扩展的、数据驱动的替代方案，可以替代传统的基于物理的模拟器，从而实现自主智体的高效训练和评估。
一个突出的例子是 NVIDIA 的 Cosmos 世界基础模型平台 [294]，它建立一个统一的框架，用于构建能够通过扩散和自回归架构生成物理精确的 3D 视频预测的基础世界模型。通过从结构化输入（例如分割图、深度）合成逼真的可控环境，Cosmos 促进了机器人的模拟-到-现实迁移、数据增强和感知训练。如图展示 Cosmos-Predict 世界基础模型。该平台的模块化设计支持通过在专用数据集上进行后训练来进行特定任务的微调，并通过从大规模预训练中进行迁移学习显著降低数据需求。这种方法弥合模拟与现实之间的差距，增强了机器人在自动驾驶和机器人操控等动态环境中的学习能力。未来神经模拟保真度和控制方面的进步将进一步拓展其在具身人工智能系统中的作用。

请添加图片描述

WM 作为关节机器人的动态模型

世界模型 (WM) 作为基于模型的强化学习 (MBRL) 中的动态模型，通过从观测数据中学习环境动态的预测表示。这些模型不依赖于手工制作的物理引擎或稀疏奖励信号，而是使智体能够模拟未来状态并通过想象的部署来规划行动。PlaNet 是最早使用 RSSM 架构的模型之一，如图所示。Dreamer 系列通过使用变分自编码器和 RSSM 从高维观测值中学习潜状态动态，体现了这种方法。像 TransDreamer 这样的扩展用 Transformer 取代了 RNN，以便更好地捕捉长程依赖关系，而 ContextWM 和 iVideoGPT 则分别探索了对真实世界视频和基于离散标记的建模进行预训练。这些进步增强了泛化能力、长期预测能力以及跨任务的可迁移性。通过将感知与规划解耦，世界模型降低了样本复杂度，并改善了复杂高维环境中的决策能力。最近的研究进一步证明它们在现实世界中的适用性，验证了它们在机器人和自主系统中的潜力。

请添加图片描述

WM 作为关节机器人的奖励模型

世界模型作为奖励模型，利用其学习的动态特性，通过衡量智体行为与模型预测的契合程度来隐式推断奖励。例如，如果轨迹高度可预测（即与世界模型的预期相符），则会为其分配更高的奖励，从而消除手动的奖励工程。

与通过价值函数隐式替换奖励信号的 Dreamer 不同，PlaNet 使用显式学习的奖励预测器。其奖励预测器作为动态模型的一部分，负责从压缩的潜状态预测环境奖励，通过最小化预测奖励与真实奖励之间的误差进行训练，并在在线规划阶段为潜空间中展开的多步轨迹提供即时奖励信号，从而取代手动设计的奖励函数。

这些方法统一了环境模拟和奖励生成，从而实现了基于原始观测的可扩展强化学习。这种范式对于迁移学习尤其有用，正如 VIPER 的跨具身泛化所见。

技术趋势

世界模型在未来拥有广阔的发展前景，但在机器人领域，它可能具有以下发展潜力：

用于灵巧操作的触觉增强世界模型。触觉集成世界模型的发展正在推动机器人灵巧性方面的突破，尤其是在多指手方面。如今，尖端方法将高分辨率接触建模与视觉触觉融合相结合，利用神经网络实时预测滑移、变形和最佳抓握力。自监督触觉编码器通过自主学习材料和形状表征来消除手动标记，而图/transformer架构则处理动态时空触觉信号。这些创新使机器人能够以类似人类的适应能力处理新物体，从而克服了精细操作任务中传统的模拟-到-现实的挑战。

跨硬件和跨任务泛化的统一世界模型。未来的机器人世界模型将专注于硬件无关的动态编码和任务自适应的潜在空间，以实现跨不同形态（例如，单臂/双臂、腿式/轮式机器人）和任务（例如，夹持器与灵巧手操作）的泛化。关键方向包括：具有共享物理先验的模块化架构，用于可迁移的动态学习；元强化学习，用于快速适应新的硬件/任务组合；以目标为中心的表征，支持跨场景的技能复用；以及通过残差物理建模实现模拟-到-现实的桥梁。这些进展旨在为可扩展的机器人智能创建“一刀切”的解决方案。

用于长远任务的分层世界模型。未来的机器人世界模型将专注于分层规划和时间抽象，以处理复杂的多阶段任务。关键进展包括：用于动态子任务链的目标条件潜空间；用于捕捉长期依赖关系的记忆增强型Transformer；用于可复用原语的自监督技能发现；以及用于实时规划调整的交互式人工反馈。这些创新旨在连接高级推理与低级控制，从而在开放式环境中实现强大的自主性。

下表是基于世界模型的机器人方法比较：

请添加图片描述