WorldModel 论文精读（一）A Survey: Learning Embodied Intelligence from Physical Simulators and World Models

这篇论文是具身智能领域中一个有关世界模型的综述，因为出的时间比较新（2025年07月01日），所以总体而言是相当全面的，特别是其原图 2、3 直接对比了仿真器支持的功能和渲染能力，图 4 对比了仿真器对关节的支持性等。此外，在方法和效果上也是言简意赅，可以当作一个速查手册。

nenchoumi3119

3887人浏览 · 2025-07-10 21:23:33

nenchoumi3119 · 2025-07-10 21:23:33 发布

【Note】：这篇综述在第三章中大量引用了他人的研究成果和结论，但通常都堆在一段中写完，我这里会对第三章进行大幅度重新排版并以 “关键技术+实现效果” 的形式展现；

写在最前面

为了方便你的阅读，以下几点的注意事项请务必了解：

该系列文章每个字都是我理解后自行翻译并写上去的，可能会存在笔误与理解错误，如果发现了希望读者能够在评论区指正，我会在第一时间修正错误。
阅读这个系列需要你有基本的 LLM、自动驾驶、VLM 相关基础知识，有时候我会直接使用英文名词，因为这些词汇实在不容易找到符合语境的翻译。
原文可能因为版面限制存在图像表格与段落不同步的问题，为了更方便阅读，我会在博文中重新对图像表格进行排版，并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
对于原文中的图像，我会在必要时对图像描述进行翻译并附上我自己的理解，但如果图像描述不值得翻译我也不会强行写上去。

Basic Information

论文标题：A Survey: Learning Embodied Intelligence from Physical Simulators and World Models
原文链接: https://arxiv.org/abs/2507.00917
发表时间：2025年07月01日
发表平台：arxiv
预印版本号：[v1] Tue, 1 Jul 2025 16:23:00 UTC (25,020 KB)
作者团队：Xiaoxiao Long, Qingrui Zhao, Kaiwen Zhang, Zihao Zhang, Dingrui Wang, Yumeng Liu, Zhengjie Shu, Yi Lu, Shouzheng Wang, Xinzhe Wei, Wei Li, Wei Yin, Yao Yao, Jia Pan, Qiu Shen, Ruigang Yang, Xun Cao, Qionghai Dai
院校机构：
- Nanjing University;
- The University of Hong Kong;
- Central South University;
- University of Chinese Academy of Sciences;
- Technical University of Munich;
- Tsinghua University;
项目链接: 【暂无】
GitHub仓库: https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey

Abstract

对通用人工智能 (AGI) 的追求已将具身智能 (embodied intelligence) 置于机器人研究的前沿。具身智能专注于能够在物理世界中感知、推理、行动的智能体。实现强大的具身智能不仅需要先进的感知和控制能力，还需要将抽象认知应用于现实世界交互的能力。物理模拟器和世界模型这两项基础技术已成为实现这一目标的关键推动因素。物理模拟器为训练和评估机器人智能体提供受控的高保真环境，从而能够安全高效地开发复杂行为。相比之下，世界模型赋予机器人对其周围环境的内部表征，使其能够进行超越直接感官输入的预测性规划和自适应决策。本综述系统地回顾了通过整合物理模拟器和世界模型来学习具身人工智能的最新进展，分析了它们在增强智能机器人的自主性、适应性和泛化能力方面的互补作用，并探讨了外部模拟和内部建模在弥合模拟训练与实际部署之间差距方面的相互作用。通过综合当前进展并识别尚未解决的挑战，本综述旨在为构建更强大、更泛化的具身人工智能系统提供全面的视角。作者还维护着一个活跃的存储库，其中包含最新的文献和开源项目，网址为： https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey

在这里插入图片描述

1. Introduction

1.1 Overview

随着人工智能和机器人技术的快速发展，智能体与物理世界的交互日益成为研究的焦点。通用人工智能（AGI）的追求，即能够在不同领域匹敌甚至超越人类认知能力的系统，面临着一个关键问题：如何将抽象推理建立在现实世界的理解和行动之上？

智能机器人已成为必不可少的具身智能体，通过提供连接计算智能与现实环境交互的物理媒介，为通向通用人工智能（AGI）铺平了道路。与纯粹基于符号或数字数据运行的非具身智能系统不同，具身智能强调通过与环境的物理交互来感知、行动和认知的重要性。这种范式允许机器人在执行任务时根据来自物理世界的反馈不断调整其行为和认知，这使得机器人技术不仅仅是人工智能的一种应用，更是迈向通用智能道路上不可或缺的组成部分。

具身智能的意义远不止于执行物理任务。通过在物理躯体中行动和感知，机器人能够从经验中稳健地学习，检验假设，并通过持续的交互完善其策略。这种感知输入、运动控制和认知处理的闭环集成，构成了真正的自主性和适应性的基础，使机器人能够以更像人类的方式推理和响应世界。

随着智能机器人在现实世界场景中的应用日益广泛，例如老年人护理、医疗救助、灾难救援、教育。它们在动态、不确定的环境中自主安全运行的能力变得至关重要。然而，应用的多样性和技术的快速进步，迫切需要一个系统的框架来评估和比较机器人的能力。建立科学合理的机器人智能分级体系，不仅可以明确技术发展路线图，还能为监管、安全评估、伦理部署提供必要的指导。

为了满足这一需求，近期研究探索了各种量化机器人能力的框架，例如 DARPA 机器人挑战赛评估方案、服务机器人安全 ISO 13482 标准以及自主性水平评估。然而，仍然缺乏一个能够整合智能认知、自主行为和社交互动等维度的综合评分体系。

本文提出了一个智能机器人能力分级模型，系统地概述了从基本机械执行到高级、完全自主的社会智能的五个递进级别（IR-L0 至 IR-L4）。该分类涵盖了自主性、任务处理能力、环境适应性和社会认知等关键维度，为评估和指导智能机器人在整个技术演进过程中的发展提供了一个统一的框架。

实现机器人智能行为的核心是两项关键技术：物理模拟器、世界模型。这两项技术在提升机器人的控制能力和拓展其潜力方面都发挥着至关重要的作用。诸如 Gazebo 或 MuJoCo 之类的模拟器提供了物理世界的明确建模，机器人部署到真实场景之前，在一个受控环境中训练、测试和优化其行为。这些模拟器充当了训练场，可以预测、测试和微调机器人的动作，而无需承担真实世界实验的高成本和风险。

与模拟器不同，世界模型提供环境的内部表征，使机器人能够在其认知框架内自主模拟、预测和规划动作。根据 NVIDIA 的定义，世界模型是 “generative AI models that understand the dynamics of the real world, including physics and spatial properties”。这一概念因 Ha 和 Schmidhuber 的开创性研究而备受关注，该研究展示了智能体如何学习紧凑的环境表征以进行内部规划。

模拟器与世界模型之间的协同作用，增强了机器人在不同场景下的自主性、适应性和任务执行能力。本文将探讨机器人控制算法、模拟器和世界模型之间的相互作用。通过研究模拟器如何为训练提供结构化的外部环境，以及世界模型如何创建内部表征以实现更具适应性的决策，旨在 全面理解这些组件如何协同工作以增强智能机器人的能力。

1.2 Scope and Contributions

Scope

本文对机器人控制算法、模拟器和世界模型之间的相互作用进行了全面的分析，主要关注2018年至2025年的发展。研究范围涵盖传统的基于物理的模拟器和新兴的世界模型，并强调它们对自动驾驶和机器人的影响。

本综述与现有文献的不同之处在于，全面考察了物理模拟器与世界模型在推进具身智能方面的协同关系。以往的综述通常侧重于单个组件（例如机器人模拟器和世界模型），而本文则将这些领域连接起来，揭示它们在智能机器人发展中的互补作用。

Contribution

这篇论文的主要贡献有以下几点：

Levels of intelligent robots：提出一个全面的五级评分标准（IR-L0至IR-L4），用于评估人形机器人的自主性，涵盖四个关键维度：自主性、任务处理能力、环境适应性、社会认知能力；
Analysis of recent techniques of robot learning：系统地回顾智能机器人在腿部运动（双足行走、跌倒恢复）、操控（灵巧控制、双手协调）和人机交互（认知协作、社会嵌入）方面的最新发展；
Analysis of current physical simulators：对主流模拟器（Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等）进行全面的比较分析，涵盖物理模拟能力、渲染质量、传感器支持等；
Recent advancements of World Models：首先回顾世界模型的主要架构及其潜在作用，例如，作为可控模拟器、动态模型和具身智能的奖励模型；此外，全面讨论了近期为自动驾驶和关节机器人等特定应用设计的世界模型；

1.3 Structure

论文结构概要如 Fig.2 所示：
在这里插入图片描述

2. Levels of Intelligent Robot

随着人工智能、机械工程、传感器融合、人机交互等领域的快速发展，智能机器人正逐渐从实验室走向现实世界，应用于老年护理、医疗救助、灾害救援、教育等场景。与传统工业机器人不同，智能机器人强调基于类人结构完成复杂的认知、感知和执行任务。它们在现实环境中面临的动态性和不确定性使得能力评估成为一个关键问题。因此，建立科学合理的能力分级体系，不仅有助于明确技术发展路线，还能为机器人监管和安全评估提供指导。

目前，已有多项研究尝试量化机器人能力，例如用于评估执行复杂任务能力的 DARPA 机器人挑战赛框架、用于服务机器人安全分级的 ISO 13482 标准，以及对机器人自主性水平的评估。然而，仍然缺乏一个将“智能认知”和“自主行为”维度相结合的综合分级体系。为此，本文提出并系统地概述了从 IR-L0 到 IR-L4 的智能机器人能力分级模型，涵盖了从机械到机器人的完整技术演进路径。

在这里插入图片描述

2.1 Level Criteria

该标准根据机器人在各种环境下执行任务的能力、自主决策的深度、交互的复杂性以及伦理认知对机器人进行分类。该标准涵盖以下核心维度：

机器人独立完成任务的能力，从完全依赖人类控制到完全自主；
机器人能够处理的任务难度，从简单的重复性劳动到创新的问题解决；
机器人在动态或极端环境下工作的能力；
机器人理解、互动和响应人类社会中社交情况的能力；

2.2 Level Factors

机器人的智能水平根据以下五个因素进行分级：

Autonomy：这一因素取决于机器人在执行各种任务时自主做出决策的能力；
Task Handling Ability：该因素取决于机器人能够执行的任务的复杂性；
Environmental Adaptability：该因素基于机器人在不同环境下的表现；
Societal Cognition Ability：这一因素基于机器人在社交场景中展现出的智能水平；

等级划分与等级因子的关系如 Table.1 所示。

在这里插入图片描述

2.3 Classification Levels

2.3.1 IR-L0: Basic Execution Level

IR-L0 代表该系统的基础执行层，其特点是完全非智能的、程序驱动的属性。此级别的机器人 专注于执行高度重复、机械化、确定性的任务，例如工业焊接和固定路径物料搬运。“low perception - high execution” 的操作模式使机器人完全依赖于预先定义的程序指令或实时远程操作。它缺乏环境感知、状态反馈或自主决策能力，形成 “”command input - mechanical execution” 的单向闭环系统。潜在的技术要求总结如下：

Hardware：高精度伺服电机和刚性机械结构，以及基于PLC或MCU的运动控制器；
Perception：极其有限，通常仅涉及限位开关、编码器等；
Control Algorithms：主要基于预定义的脚本、动作序列或远程操作，没有实时反馈回路；
Human-Robot Interaction：无，或仅限于简单的按钮/遥控操作；

2.3.2 IR-L1: Programmatic Response Level

IR-L1 机器人具有有限的基于规则的反应能力，使其能够执行预先定义的任务序列，例如清洁和接待机器人执行的任务序列。这些系统利用红外、超声波和压力传感器等基础传感器来触发特定的行为模式。它们无法处理复杂或不可预见的事件，并且只能在具有明确规则的封闭任务环境中表现出操作稳定性。它们体现了 “limited perception–limited execution” 的范式，代表着基础机器人智能的开始。潜在的技术要求总结如下：

Hardware：集成基本传感器（红外、超声波、压力）和适度增强的处理器功能；
Perception：检测障碍物、边界和简单的人体动作；
Control Algorithms：规则引擎和有限状态机 (FSM)，辅以基本 SLAM 或随机游走算法；
Human-Robot Interaction：支持简单命令响应协议的基本语音和触摸界面；
Software Architecture：具有基本任务调度功能的嵌入式实时操作系统；

2.3.3 IR-L2: Basic Perception and Adaptation Level

IR-L2 机器人具备初步的环境感知和自主能力，代表着机器人智能的重大进步。其特点 包括对环境变化的基本响应能力以及在多种任务模式之间切换的能力。例如，此级别的服务机器人可以基于语音命令执行 “water delivery” 或 “navigation guidance” 等不同任务，同时在路径执行过程中避开障碍物。这些系统需要集成感知模块（摄像头、麦克风阵列、激光雷达）和基本的行为决策框架，例如有限状态机 (FSM) 或行为树。

虽然人类监督仍然必不可少，但 IR-L2 机器人相比 IR-L1 系统表现出了更高的执行灵活性，标志着其正朝着真正的 “contextual understanding” 迈进。潜在的技术要求总结如下：

Hardware：多模态传感器阵列（摄像头、激光雷达、麦克风阵列）与增强的计算资源相结合；
Perception：视觉处理、听觉识别和空间定位能力，可实现基本的物体识别和环境映射；
Control Algorithms：有限状态机、行为树、SLAM 实现、路径规划和避障系统；
Human-Robot Interaction：支持理解和执行基本命令的语音识别和合成功能；
Software Architecture：模块化设计框架通过初步优先级管理系统促进并行任务的执行；

2.3.4 IR-L3: Humanoid Cognition and Collaboration Level

IR-L3 机器人在复杂动态环境中展现出自主决策能力，同时支持复杂的多模态人机交互。系统可以推断用户意图，并相应地调整其行为，并在既定的伦理约束范围内运行。例如，在老年护理应用中，IR-L3 机器人可以分析语音模式和面部表情，以检测老年患者的情绪状态变化，并采取适当的安抚措施或发出紧急警报。潜在的技术要求总结如下：

Hardware：高性能计算平台集成全面的多模态传感器套件（深度摄像头、肌电图传感器、力传感阵列）；
Perception：视觉、语音和触觉输入的多模态融合；用于情绪识别和动态用户建模的情感计算；
Control Algorithms：用于感知和语言理解的深度学习架构（CNN、Transformer）；用于自适应策略优化的强化学习；用于复杂任务工作流管理的规划和推理模块；
Human-Robot Interaction：多轮自然语言对话支持；面部表情识别与反馈；基础同理心和情绪调节能力；
Software Architecture：面向服务的分布式框架，支持任务分解和协同执行；集成学习和适应机制；
Safety and Ethics：嵌入式道德治理系统，防止不安全或不合规行为；

2.3.5 IR-L4: Fully Autonomous Level

IR-L4 代表了智能机器人技术的巅峰：系统在感知、决策和执行方面拥有完全自主权，能够在任何环境下独立运行，无需人工干预。这些机器人 拥有自我进化的伦理推理能力、高级认知能力、同理心和长期自适应学习能力。除了处理开放式任务外，它们还能进行复杂的社交互动，包括多轮自然语言对话、情感理解、文化适应和多智能体协作。潜在的技术要求总结如下：

Hardware：高度仿生的结构，具有全身、多自由度关节；分布式高性能计算平台；
Perception：全方位、多尺度、多模态感知系统；实时环境建模与意图推断；
Control Algorithms：通用人工智能 (AGI) 框架集成了元学习、生成式人工智能和具身智能；具有自主任务生成和高级推理能力；
Human-Robot Interaction：自然语言理解与生成；复杂社会环境适应；同理心与伦理思考；
Software Architecture：云-边缘-客户端协作系统；支持自我进化和知识转移的分布式代理架构；
Safety and Ethics：嵌入式动态伦理决策系统能够约束行为，并在伦理困境中做出合乎道德的选择；

3. Robotic Mobility, Dexterity and Interaction

在众多智能机器人形态中，类人机器人以其与人类相似的外形而脱颖而出，因为它们能够无缝融入以人为中心的环境并提供有意义的协助。因此，它们是具身智能的重要物理表征。

近年来，机器学习技术的快速发展，推动了机器人全身控制和通用操控领域的重大突破。本章首先概述智能机器人技术的基本技术方法，然后回顾机器人运动和操控领域的最新进展，最后探讨旨在实现自然直观的人机交互的正在进行的研究。

3.1 Related Robotic Techniques

3.1.1 Model Predictive Control, MPC

模型预测控制 (Model Predictive Control, MPC) 是一种强大的控制策略，在过去二十年中，它在人形机器人领域获得了显著的关注。MPC 的核心是一种基于优化的方法，它使用动态模型预测系统的未来行为，并通过在每个时间步求解优化问题来计算控制动作。这使得控制器能够明确地处理对输入和状态的约束，使其特别适用于像人形机器人这样的复杂高维系统。

Tom Erez 等人：提出了一个 全面的实时模型预测控制系统，将模型预测控制应用于人形机器人的全动力学，使其能够执行站立、行走和从干扰中恢复等复杂任务；
Jonas Koenemann、Andrea Del Prete、Yuval Tassa、Emanuel Todorov 等人：实现了 完整的模型预测控制，并将其实时应用于实体 HRP-2 机器人，这标志着这种全身模型预测控制器 首次被实时应用于复杂的动态机器人。

3.1.2 Whole-Body Control, WBC

人形机器人中的全身控制 (Whole body control, WBC) 是一个综合框架，使机器人能够同时协调所有关节和肢体，以实现不同的运动。全身控制的基本方法通常包括将机器人的运动和力目标制定为一组优先任务，例如保持平衡、遵循期望轨迹或用手施加特定的力。然后，这些任务被转化为数学约束和目标，并使用优化技术或分层控制框架进行求解。

具体实施过程中 WBC 通常采用动力学建模、逆运动学求解和优化算法等技术，以确保机器人在满足物理约束的同时实现所需的运动行为。21 世纪初，Oussama Khatib 及其同事提出了用于控制冗余机械臂的操作空间公式，后来将其扩展到人形机器人。基于优化的 WBC 具有很强的灵活性，允许模块化地添加或删除约束，并通过设置不同的任务层次结构或软任务权重来解决冲突的约束。近年来，随着强化学习等人工智能的发展，研究人员提出了像 ExBody2 和 HugWBC 这样的框架，它们在模拟环境中训练控制策略，并将其迁移到实际机器人上，实现更自然、更具表现力的全身运动控制。

3.1.3 Reinforcement Learning

强化学习 (RL) 是机器学习的一个分支，在人形机器人领域影响力日渐增强。RL 的核心理念是，智能体（例如人形机器人）可以通过与环境交互并接收奖励或惩罚形式的反馈来学习执行复杂任务。与需要明确编程或行为建模的传统控制方法不同，RL 使机器人能够通过反复试验自主发现最佳动作，这使其特别适合人形机器人经常遇到的高维、动态和不确定的环境。

强化学习在人形机器人中的应用可以追溯到 20 世纪 90 年代末和 21 世纪初。

Masahiro Morimoto 和 Kenji Doya ：于 1998 年提出了一种 强化学习方法，使模拟的两关节三连杆机器人能够自主学习从卧姿到站立的动态动作。此后，强化学习被用于实现人形机器人的复杂行为；
DeepLoco 和其他研究对深度强化学习在双足任务中的能力进行了广泛的探索，但尚未证明它们适用于物理机器人；
Xie 等人：于 2019 年使用 迭代强化学习和确定性动作随机状态 (Deterministic Action Stochastic State, DASS) 元组逐步完善奖励函数和策略架构，使物理 Cassie 双足机器人能够 实现鲁棒的动态行走；

3.1.4 Imitation Learning

模仿学习 (Imitation learning, IL) 是机器人技术中的一种范式，机器人通过观察和模仿通常由人类或其他智能体提供的演示来学习执行任务。模仿学习的核心理念在于，它无需显式编程或手动设计奖励函数，从而使人形机器人能够更高效、更直观地习得复杂行为。通过利用演示，机器人可以学习行走、操控或社交互动等技能，而这些技能通常难以通过传统的控制或强化学习方法进行具体化。

在人形机器人运动控制中，IL 常利用经过重新定位（Retargeting）的人体运动捕捉数据，或基于模型的轨迹规划（如自然行走、跑步等）生成的参考步态，并在模拟中激励机器人遵循这些参考轨迹，以实现更自然、稳定的运动步态。

虽然 IL 可以有效地利用现有知识进行学习，但它也面临着诸多挑战，例如获取 专家演示数据的成本高昂、数据多样性不足、质量问题以及流程耗时。此外，基于有限演示数据训练的策略通常泛化能力较差，难以适应新的环境或任务，所学到的操作技能也可能相对狭窄。为了应对这些挑战，研究人员和公司正致力于开发更高效的数据收集硬件平台或遥操作技术来扩展数据，同时也在探索新型训练数据，例如从视频数据中提取人类动作。

3.1.5 Visual-Language-Action Models, VLA

视觉-语言-动作 (VLA) 模型代表一种跨模态人工智能框架，它集成了视觉感知、语言理解和动作生成。其核心概念是利用大型语言模型 (LLM) 的推理能力，将自然语言指令直接映射到物理机器人的动作。

2023年，谷歌 DeepMind 推出了 RT-2，首次将这一范式应用于机器人控制，将机器人控制指令离散化为类似语言的 tokens，实现端到端的 VLA 映射。通过利用互联网规模的成熟视觉语言数据进行预训练，机器人能够理解此前未曾见过的语义概念，并通过思维链推理生成合理的动作序列。随后，大量端到端的VLA模型应运而生，进一步推动了VLA模型在机器人领域的应用和发展。

尽管当前的 VLA 模型取得了显著进展，但仍存在一些关键挑战。这些模型通常难以可靠地处理它们从未遇到过的任务或环境；实时推理约束限制了它们在动态情况下的响应能力；训练数据集中的偏差、跨模态语义基础的困难以及系统集成的高计算复杂度*，继续阻碍着它们的进一步发展。

3.2 Robotic Locomotion

机器人运动的目标是实现自然的运动模式，包括行走、跑步、跳跃。
通过 整合感知、规划、控制 等多个领域，具有运动能力的机器人可以归类为 IR-L2 级别。这种整合使机器人能够动态适应变化的地形、外部干扰、不可预见的事件，从而实现稳健流畅的双足运动。此外，从意外事件中自主恢复的能力减少了对人为干预的依赖，为实现更高的智能化和自主性铺平了道路。本节将探讨腿部运动领域的最新进展，并讨论跌倒防护和恢复策略。

3.2.1 Legged Locomotion

双足机器人在复杂地形导航、模拟人类行为以及无缝融入以人为中心的环境方面展现出独特的优势。双足运动控制领域的研究可分为两大类：非结构化环境适应 Unstructured Environment Adaption，强调在复杂、未知或动态环境中保持稳定行走的能力；以及高动态运动 High Dynamic Movements，侧重于在跑步和跳跃等高速动态运动中实现稳定性与敏捷性的平衡。

Unstructured Environment Adaption

非结构化环境通常指复杂的自然或人造地形，例如崎岖的山路、遍布碎石的地面、湿滑的草地、楼梯以及其他不可预测的障碍物。早期双足步行稳定性研究主要使用位置控制的人形机器人。

在这里插入图片描述

Sang-Ho Hyon 等人：于 2008 年提出了一种 基于被动性的接触力控制框架，使 SARCOS 人形机器人 能够在高度和倾角随时间变化的室内地形上保持主动平衡。后续研究探索了多种提高运动稳定性的策略，包括地形适应的在线学习、基于地形估计的柔顺性控制，以及线性倒立摆模型 (LIPM) 与足部力控制的集成，如 Kajita 等人于 2010 年在 HRP-4C 人形机器人上所实现的那样。

上述方法 仅能使类人机器人在地形适应性有限的情况下行走，例如在细梁、路面或平坦但倾斜的坡道上行走。这是由于位置控制机器人关节的传动比较高。这些关节阻抗较高，在输出轴或末端执行器（手和脚）受到较大冲击时很容易造成损坏。为了在未知环境中实现更好的适应性，现代类人机器人和四足机器人采用低传动比的力控制关节，从而提高柔顺性和在较大冲击下的响应速度。

随着力控人形机器人的发展和计力提升，研究人员能够开发和实现更复杂的控制算法。这进一步增强了机器人对不同环境的适应性。

Jacob Reher 等人：提出了一种 全面的全身动态控制器，该控制器明确考虑了 Cassie 双足机器人中的被动弹簧机构，成功地 实现了在各种地形（包括户外草地）上的稳定双足行走；
George Mesesan 等人：将 用于质心轨迹规划的发散运动分量 (DCM) 与用于计算关节扭矩的基于被动性的全身控制器 (WBC) 相结合，演示了使用 TORO 机器人在柔软的健身垫上进行动态行走。

除本体感受盲行之外，研究人员还探索了整合外部感受感知和路径规划模块，以应对更复杂的环境。

Jiunn Kai Huang 等人：将 低频路径规划器与高频反应控制器相结合，生成平滑的、反馈驱动的运动指令，这使得 Cassie Blue 机器人能够 **自主穿越更复杂的地形，例如密歇根大学的 Wave Field。

基于学习的方法在室外复杂环境下也表现出良好的稳定性。

Joonho Lee 等人：于 2022 年首次成功展示了 强化学习 在现实世界中应用于腿部运动的应用，其 在室外环境中的表现优于传统方法；
Jonah Siekmann 等人：使用 领域随机化方法来改变楼梯尺寸和机器人动力学，利用 Cassie 机器人实现了 盲爬楼梯，从而使学习到的策略能够成功迁移到现实世界场景中；

还有研究员利用深度摄像头和激光雷达构建高度图、感知内部模型 (PIM) 或端到端策略，显著提高了机器人在不同地形上的机动性。现在，机器人可以爬楼梯、克服障碍，甚至可以跳过宽达 0.8 米的缝隙。

High Dynamic Movements

跑步和跳跃等高动态运动对双足机器人的控制系统提出了更高的要求。在快速运动过程中，机器人必须在极短的时间内完成快速的支撑转换、姿势调整和精确的力控制。

早期研究采用了简化的动力学模型，例如弹簧加载倒立摆 (SLIP) 、线性倒立摆模型 (LIPM) 和单刚体模型 (SRBM) ，以降低计算复杂度并实现实时控制。

在这里插入图片描述

Xiaobin Xiong 和 Aaron D. Ames ：开发了一种简化的弹簧质量模型，该模型通过 基于控制李雅普诺夫函数的二次规划 (Control Lyapunov Function-based Quadratic Program, CLF-QP) 进行控制，成功实现了 Cassie 机器人 18 厘米的垂直跳跃；
Qi 等人提出了一种 基于 LIPM 的压力中心 (Center of Pressure, CoP) 制导角动量控制器，通过稳定飞行过程中的角动量，实现了高达 0.5 米的垂直跳跃；
He 等人提出了一种 质心动力学模型 (Centroidal Dynamics ModelCDM)，并结合 MPC 框架，称为 CDM-MPC，以实现 KUAVO 人形机器人的 连续跳跃运动。

基于强化学习的方法也已应用于动态任务。学习到的隐式机器人动力学在跑步、跳跃和离散地形上的跑酷等活动中表现出良好的效果，显著拓宽了机器人的学习能力。

从头开始训练高动态动作通常需要繁琐的奖励函数设计和参数调整。模仿学习利用大量的人体运动数据集，已被用来实现富有表现力和动态性的机器人行为。对抗性运动先验 (Adversarial Motion Priors, AMP) 从动作捕捉数据中获得基于风格的奖励，增强了机器人运动的自然度。

Exbody、OmniH2O 和 ASAP 等框架：实现了 自然敏捷的全身运动。ASAP 专门解决了模拟与现实之间的差距，实现了像后仰跳投这样的复杂动作。

3.2.2 Fall Protection and Recovery

人形机器人容易不稳定和跌倒，这可能导致硬件损坏或运行中断。因此，人形机器人的跌倒保护以及跌倒后有效恢复站立姿势已成为人形机器人领域的研究重点。

Model-based Methods

早期基于模型的人形机器人跌倒防护与恢复控制，很大程度上借鉴了生物力学的灵感，模仿人类跌倒过程的生物力学特征，并结合优化控制方法来生成运动轨迹，以减少跌倒过程中的损伤并实现稳定的站立恢复。

UKEMI：控制机器人在跌倒时的姿态，以分散冲击力并减少关键部件的损坏，还设计了特定的关节运动模式和控制策略，以实现机器人跌倒后的恢复；
Libo Meng 等人：通过对人体跌倒的生物力学分析，提出了一种 跌倒运动控制方法，实现了 适应不同跌倒方向的冲击防护控制；
Dong 等人：提出了一种 柔性控制框架，使机器人 能够根据外部干扰调整其刚度和阻尼特性，类似于人类调节肌肉刚度以保持平衡的方式。

在这里插入图片描述

Learning-based Methods

基于学习的方法对高精度模型不敏感，且具有强大的泛化能力，可以更好地解决这一任务。

HiFAR ：通过一种 逐步增加场景难度的多阶段课程学习方法训练人形机器人从跌倒中恢复，并在各种场景中与真实机器人的跌倒恢复中取得了很高的成功率；
HoST ：通过 平滑正则化和隐式动作速度限制，在各种环境下实现了Unitree G1机器人 稳健自然的站立动作；
Embrace Collisions ：扩展了机器人 通过全身接触与环境互动的能力，而不仅仅局限于手脚。通过模仿人类的动作，例如翻滚站立、侧卧和其他多接触行为，这种方法 扩展了人形机器人在现实场景中的运动范围和适应性。

3.3 Robotic Manipulation

机器人操作任务涵盖范围广泛，从拾取物体等简单动作到组装或烹饪等复杂动作。

本节将回顾机器人操作领域的研究进展，重点关注不同任务所需的日益复杂的协调能力。我们将从使用单个末端执行器（例如手或夹持器）的操作开始，逐步发展到涉及双臂的双手协调，最终讨论需要对整个机器人进行集成控制的全身操作任务。

3.3.1 Unimanual Manipulation Task

单手操作是指使用单个末端执行器与物体（例如平行夹持器或灵巧机械手）交互并进行操控。此类任务涵盖从基本的拾取和放置操作，到更复杂的操作，例如推动、插入、使用工具以及操控可变形或铰接式物体。这些任务的复杂性取决于末端执行器的功能及其所交互的环境。

Gripper-based manipulation

平行双指夹持器是最常见的末端执行器，用于抓取、放置和使用工具等操作任务，依赖于简单的开合动作。早期研究侧重于精确的物理模型和预编程，这些方法在工业自动化等结构化环境中有效，例如具有预定轨迹或视觉伺服提供反馈。这些方法在非结构化环境中的适应性、物体多样性和复杂的相互作用（例如摩擦、变形）方面存在困难。

基于学习的方法克服了这些局限性。在感知方面：

PoseCNN ：实现了 实例级 6D 姿态估计；
NOCS ：提升了 类别级估计以实现泛化；

功能可供性学习随着 AffordanceNet 通过监督学习识别可操作区域以及 Where2Act 使用自监督模拟交互而取得进展。模仿学习随着神经描述符场 (NDF) 的出现而发展，增强了策略泛化能力，扩散策略利用扩散模型进行多模态动作，而 RT 2 则集成了基础模型来解释复杂的指令。

随着这些进步，面向任务的操作得到了扩展。除了基本的抓取之外，机器人还能通过防撞功能（例如，CollisionNet 和 PerAct）处理杂乱环境，操纵可变形和铰接式物体，并执行双手协调、灵巧手操作和全身控制。这些发展突显了基于抓取器的操纵技术在执行各种复杂任务方面日益增强的能力。

Dexterous hand manipulation

灵巧操作旨在使机器人能够以类似人手的复杂、精确的方式与物理世界进行交互，这是机器人技术数十年来的核心挑战。该领域力求实现类似人类的多功能性和精确性，以完成需要复杂控制和适应性的任务。

在这里插入图片描述

灵巧操作的早期研究集中于硬件设计和理论基础。

Utah/MIT Hand 和 Shadow Hand 等先驱：设计探索了 高自由度和仿生结构（例如肌腱驱动机构）；
BarrettHand：展示了 用于自适应抓取的欠驱动设计。
Napier：对 人类抓取模式进行分类的理论贡献；
Salisbury 和 Craig：对 多指力控制和运动学的分析，为未来的研究奠定了基础；

传统的基于模型的控制方法难以应对高维状态空间和复杂的接触动力学，限制了其在现实世界中的有效性。基于学习的方法，包括 两阶段方法 和 端到端 方法已成为主流，利用机器学习来应对这些挑战。

Two-stage methods：两阶段方法 首先生成抓取姿势，然后控制灵巧手实现这些姿势。关键挑战在于 如何从视觉观测中生成高质量的姿势，这可以通过基于优化的、基于回归的或基于生成的策略来解决，这些策略通常与运动规划结合使用。

UGG：使用 扩散模型 来统一姿势和物体几何的生成；
SpringGrasp：通过 对部分观测中的不确定性 进行建模来提高姿势质量。

虽然这些方法受益于感知与控制以及模拟数据的解耦，但由于缺乏闭环反馈，它们仍然对扰动和校准误差敏感。

End-to-end methods：端到端方法 使用强化学习或模仿学习 直接建模抓取轨迹。强化学习在模拟环境中训练策略以实现现实世界的迁移。

DexVIP 和 GRAFF：将视觉可供性线索与强化学习相结合；
DextrAH-G 和 DextrAH RGB：通过 大规模模拟 实现了现实世界的泛化，尽管模拟与现实之间的差距和样本效率构成了挑战。由人类演示驱动的模仿学习在复杂任务中表现出色，但在泛化方面却存在困难；
SparseDFF 和神经注意场等：利用三维特征场 增强了泛化能力；
DexGraspVLA：采用了 VLA框架 将预训练的视觉-语言模型与基于扩散的动作控制器相结合。在 零样本 设置下，它在 1,287 种未见物体、光照和背景组合中实现了 90.8% 的成功率。

3.3.2 Bimanual Manipulation Task

双手操作是指需要协调使用两只手臂的机器人任务，使机器人能够执行复杂的操作，例如协作运输、精确装配以及处理柔性或可变形的物体。与单臂操作相比，这些双手任务本身就面临着更大的挑战，包括高维状态-动作空间、手臂间和环境碰撞的可能性，以及有效的 双手协调和动态角色分配的必要性。

该领域的早期研究通过引入归纳偏差或结构分解来简化学习和控制，从而解决了这些挑战。

BUDS：将双手操作任务分解为 稳定器和执行器功能角色，这不仅降低了双臂动作 空间复杂性，还实现了双臂之间的 有效协作。该框架在切蔬菜、拉拉链和盖上标记等任务上表现出了稳健的性能；
SIMPLe：利用 图高斯过程 (Graph Gaussian Processes, GGP) 来表示双手操作的运动基元，确保 轨迹稳定性，并使系统能够借助运动反馈从单臂演示中学习双臂协调能力。

随着大规模数据收集和模仿学习技术的进步，端到端方法在双手操作研究中日益重要。ALOHA 系列体现了这一趋势，它利用现成的硬件和定制的 3D 打印组件，高效收集多样化、大规模的演示数据，用于高精度双手操作任务。这些数据集促进了具有强大泛化能力的端到端神经网络的训练。特别是 ACT 将动作组块与条件变分自编码器 (CVAE) 框架相结合，使机器人能够从短短 10 分钟的演示数据中学习有效的策略，并在诸如插入电池和打开杯盖等具有挑战性的任务中取得高成功率。在此基础上，移动 ALOHA 引入了移动基础，进一步简化了 ACT 流程，从而能够高效完成移动双手任务。

在这里插入图片描述

RDT-1B：提出了基于扩散 DiT 架构的双手操作基础模型，统一了异构多机器人系统中的动作表征。该方法通过实现 零样本泛化 到新任务和平台，解决了数据稀缺的问题。

虽然这些研究显著推动了双手操作领域的发展，但它们的重点主要集中在配备平行下颌抓取装置的系统上。相比之下，使用灵巧机械手进行双手操作则带来了额外的挑战，尤其是在细粒度协调和高维控制方面。最近，一些研究探索了基于强化学习的方法，将人类的双手操作技能迁移到机械灵巧手上，从而实现更复杂的操作能力。

综上所述，双手操作研究已从依赖于强大的特定任务先验和结构简化的方法发展到利用大规模演示的数据驱动、端到端框架。这些进展显著提高了双手机器人系统的稳健性、通用性和多功能性，使其能够应对日益多样化的复杂操作任务。此外，正在进行的旨在将这些方法应用于灵巧机械手的研究正在扩展双手操作的能力，使机器人能够执行日益复杂且更像人类的任务。

3.3.3 Whole-Body Manipulation Control

全身操控是指人形机器人利用整个身体与物体交互和操控物体的能力，包括双臂、躯干、轮式或腿式底座和/或其他部件。

在这里插入图片描述

近年来，基于学习的人形机器人全身操控技术取得了显著进展，重点关注 增强机器人的自主性、适应性和在复杂环境中的交互能力。其中一个趋势是利用大型预训练模型（例如 LLM、VLM 和生成模型）来增强语义理解和泛化能力。

TidyBot：利用 LLM 的归纳能力，从 少量示例 中学习个性化的家居整理偏好；
MOO：通过 VLM 将 对象描述从语言指令映射到视觉观察，实现了 对未知对象类别的零样本操作泛化；
HAR MON：将 人体运动生成先验与 VLM 编辑相结合，从自然语言中 生成多样且富有表现力的人形动作。

视觉演示也能指导学习操作技能。

OKAMI：提出了一种 对象感知重定向方法，使人形机器人能够模 仿单个人类 RGB-D 视频中的技能，并适应不同的对象布局；
iDP3：通过 改进的 3D 扩散策略，实现了从 单场景遥操作数据训练的多场景任务执行策略。为了实现稳健而灵巧的全身控制；
OmniH2O：采用 强化学习 Sim-to-Real 方法，训练协调运动和操作的全身控制策略，并设计了一个 兼容 VR 遥操作和自主智能体的通用运动学接口；
HumanPlus：系统将基于 Transformer 的 低级控制策略与视觉模仿策略相结合，仅使用单目 RGB 摄像头即可实现 人形机器人全身动作演示和复杂技能的自主学习。该系统可以学习现实世界中的全身操控和运动技能，例如穿鞋、站立和行走；
WB-VIMA：通过 自回归动作去噪，对全身动作的层次结构以及特定人形机器人形态中各组件之间的相互依赖关系进行建模，预测协调的全身动作，并有效地学习 全身操控，以完成具有挑战性的现实世界家务任务；

3.3.4 Foundation Models in Humanoid Robot Manipulation

基础模型 (FM) 是指基于互联网规模数据预训练的大规模模型，包括大型语言模型 (LLM)、视觉模型 (VM) 和视觉-语言模型 (VLM)。这些模型在语义理解、世界知识整合、逻辑推理、任务规划和跨模态表征方面拥有强大的能力，可直接部署或微调用于各种下游任务。

基础模型使人形机器人能够在复杂、动态和非结构化的环境中执行操作任务，通常涉及复杂的环境感知和建模、抽象任务理解以及长序列和多步骤任务的自主规划。Fig.10 展示了利用基础模型驱动人形机器人操作的两种主要技术范式。

在这里插入图片描述

Hierarchical Approach

利用预训练的语言或视觉语言基础模型作为高级任务规划和推理引擎，理解用户指令，解析场景信息，并将复杂任务分解为一系列子目标。这些高级输出（通常是可操作的知识或图像语言 tokens）随后被传递给低级动作策略（通常是通过模仿学习或强化学习训练的专家策略），以执行物理交互动作。Transformer 因其可扩展性而成为此类低级策略的常见选择。

这种分层架构充分利用了基础模型强大的语义和逻辑推理能力，同时结合了低层策略在具体动作执行中的效率，使机器人在多任务处理和跨场景泛化方面表现出色。这种方法的优势在于其模块化和可解释性，但也面临着信息瓶颈以及高层与低层之间语义鸿沟等挑战。

Figure AI：展示了 Helix 一个用于实现灵巧操作和两个人形机器人协作的分层 VLA 模型；
NVIDIA 开发了 GR00T N1：一个用于人形机器人的通用基础模型；
$\pi_{0}$ ：将预训练的 视觉语言模型与流匹配架构相结合，实现跨各种机器人平台的 通用控制，高效执行复杂的灵巧任务，例如折叠衣物和物体分类。

End-to-End Approach

将机器人操作数据直接纳入基础模型的训练或微调过程，构建端到端的视觉-语言-动作 (VLA) 模型。这些模型直接学习从多模态输入（例如图像和语言指令）到机器人动作输出的映射。通过对大量机器人交互数据进行预训练或微调，VLA 模型可以在没有显式层级结构的情况下隐式学习任务规划、场景理解和动作生成。这种端到端方法允许模型针对下游部署任务进行整体优化，从而可能实现卓越的性能和更快的响应时间，但通常需要大量特定于机器人的数据，并且模型的可解释性相对较弱。例如，谷歌 DeepMind 的 RT（Robotics Transformer）系列代表了用于操作的典型 VLA 模型。

3.4 Human-Robot Interaction

人机交互 (Human-Robot Interaction, HRI) 致力于 使机器人能够理解并响应人类的需求和情感，促进机器人高效合作、陪伴和个性化服务，广泛应用于家居、医疗保健、教育和娱乐领域。为了准确地理解和适应人类的各种行为，机器人需要具备类似人类的能力，例如多模态感知、自然语言处理和协调控制。

在这里插入图片描述

人机交互的研究可以分为三个主要维度：Cognitive Collaboration、Physical Reliability、Social Embeddedness。这些维度分别关注机器人如何感知和理解人类的认知模式、协调物理动作以及如何有效地融入人类的社会环境。

以机器人在拥挤环境中导航为例，Cognitive Collaboration 是指机器人识别行人的潜在紧急程度；Physical Reliability 是指机器人调整速度和轨迹以避免碰撞；Social Embeddedness 是指机器人主动利用语言提示或肢体语言协商通行权，从而建立临时社交协议。这些全面的能力使机器人能够无缝融入人类的日常活动中，提升交互的自然性和效率。后续章节将分别阐述每个维度的理论基础、当前研究进展、主要研究方向以及代表性文献。

3.4.1 Cognitive Collaboration: Understanding and Aligning with Human Cognition

人机交互中的认知协作是指机器人与人类之间实现双向认知协调，实现自然直观的沟通与合作。这种协作不仅强调机器人对人类行为的被动响应，更强调深度认知理解和动态自适应，形成类似于人类高效协作的模式。其核心目标是使机器人不仅能够理解人类的显性指令，例如语音命令和手语指令，还能理解隐性意图（例如情感和语境），并动态调整其行为以匹配人类的认知模式和期望。实现这一能力对于提升机器人在复杂场景中的适应性和自然交互体验至关重要。

研究表明，实现认知协作依赖于复杂的认知架构和多模态信息处理能力。 Lemaignan 等人：探索了机器人认知在社交人机交互中所需的关键技能，包括几何推理、情境评估和多模态对话。机器人需要理解人类意图，并通过这些技能与人类协作完成共同任务。

此外，多模态意图学习（Multimodal Intention Learning）被认为是实现认知协作的关键因素。例如，整合面部表情和肢体动作来解读口头指令的情绪基调和潜在意图，可以大大减少误解，增强人机交互的自然性。

此外，认知协作需要机器人对环境和交互情境有深入的语义理解。Laplaza 等人的研究展示了如何通过对人类行为的情境语义分析来推断交互意图。他们提出了一个基于动态语义分析的模型，该模型可以实时解析人类行为的潜在目标，并结合环境信息进行预测，从而使机器人能够更准确地协作完成任务。

在没有人类直接参与的交互任务中，认知协作也发挥着重要作用。
例如，在家庭服务机器人场景中，机器人可以通过对环境的语义理解来解决面向目标的导航任务。这项任务要求机器人在未知环境中定位特定的目标物体（例如杯子、沙发或电视）或指定区域（例如卧室和浴室）。L3mvn、Sg-Nav、Trihelper、CogNav 和 UniGoal 等研究利用大型语言模型 (LLM) 来模拟各种人类认知状态（例如广泛搜索和上下文搜索），从而提高了机器人在面向目标的导航任务中的表现。

总而言之，人机交互中认知协作的进步依赖于跨学科的努力，涵盖认知科学、语义理解以及涉及语言、视觉和音频感知的大型多模态模型的开发。随着认知协作能力的不断提升，机器人将越来越擅长支持现实世界场景中的各种任务。

3.4.2 Physical Reliability: Coordination and Safety of Physical Actions

人机交互中的物理可靠性是指人与机器人之间力、时间和距离的有效协调，以确保安全、高效且与人类兼容地执行任务。其核心目标是 使机器人能够动态响应人类行为的实时变化，包括调整运动策略、避免物理冲突，并确保交互过程中的人身安全。为此，研究主要集中在两个方向：物理交互的实时控制 和 基于仿真平台的大规模生成数据集构建。

在这里插入图片描述

确保人机交互的物理可靠性依赖于先进的运动规划和控制策略，这些策略能够同时解决人机之间的协调性和安全性问题。基于采样的规划器，例如概率路线图 (PRM) 和快速探索随机树 (RRT)及其扩展，已被广泛应用于在共享工作空间中生成无碰撞且具有人机感知的轨迹。基于优化的规划器，包括 CHOMP、STOMP、IT OMP、TrajOpt 和 GPMP，通过最小化动态场景下与可行性和平滑度相关的成本，进一步提高了轨迹质量。这些方法非常适合应用于人机协作环境，以确保物理可靠性。

在控制方面，阻抗控制和导纳控制为物理接触提供了柔顺且安全的响应，而自适应和混合控制器则进一步增强了对干扰和不确定性关系的鲁棒性。这些方法确保机器人的行为可靠且可预测，从而降低了人类协作者受伤和不适的风险。

然而，随着机器人越来越多地部署在多样化和非结构化的环境中，实现安全可靠的物理协作需要的不仅仅是传统的控制策略。感知、意图预测和实时自适应的整合已成为机器人响应动态变化和复杂人类行为的关键。基于这些进展，最近的研究探索了模仿学习和强化学习方法，使机器人能够直接从数据和经验中获取自适应运动策略。然而，这些基于学习的方法的有效性在很大程度上取决于高质量交互数据的可用性。因此，通过物理模拟生成的大规模生成数据集已成为增强机器人动作可靠性和安全性的重要资源。

Handover Sim：提供了一个 人机物体交接的仿真和基准测试平台，利用物理引擎和轨迹优化来确保无碰撞和标准化的安全评估；
GenH2R：引入了一个 具有广泛 3D 模型和灵巧抓握生成的仿真环境，通过模仿学习实现广义交接策略的训练；
MobileH2R：集成了 CHOMP 生成的专家演示，以应对动态场景下移动机器人安全高效地转移物体的挑战。

尽管当前的研究取得了令人鼓舞的进展，但确保人机交互的物理可靠性仍然面临着诸多挑战，例如计算成本高、在复杂场景下鲁棒性有限。未来仍需探索开发更高效的算法并增强其适应性，从而在多样化和动态的环境中实现可靠的人机交互。

3.4.3 Social Embeddedness: Integration with Social Rules and Cultural Norms

人机交互中的社会嵌入性是指机器人 识别和适应社会规范、文化期望和群体动态的能力，从而能够无缝融入人类环境。这不仅局限于完成任务，还包括谈判、礼仪和情感表达等行为。如 Fig.13 所示，机器人正在与人类伙伴进行谈判。为了促进机器人无缝融入社交场景，近期研究探索了一系列策略，旨在解决社会空间理解和行为理解问题。这两个互补的方面对于在人机交互中实现有效的社会嵌入性至关重要。

在这里插入图片描述

一方面，社会空间理解使机器人能够解读和适应人类群体的空间动态。通过将空间理解应用于社交场景，机器人可以通过诸如周边个人空间等概念更好地理解协作或防御行为。一个典型的应用是使机器人能够在社交环境中更有效地导航和交互，从而为视障人士提供更合适、更自然的帮助。

另一方面，行为理解侧重于从语言和非语言的角度解读人类交流的复杂性。语言学研究探索对话建模、会话结构和话语分析等方面，而非语言学研究则侧重于对手势、目光和情绪表达的解读。为了捕捉这些多样化的社会信号，人们提出了一系列用于建模和识别非语言行为的方法，涵盖从个体手势分析到多方现实世界交互。

尽管取得了这些进展，但稳健的社会嵌入性仍然充满挑战。机器人必须精准地平衡任务效率和社会适应性，这需要在多模态感知、长期适应性以及将社会知识融入决策方面取得进步。未来的研究还应探讨终身学习、跨文化适应以及社会嵌入机器人的伦理影响，为实现 IR-L4 自主性铺平道路。

4. General Physical Simulators

随着传统机器人向具身智能演进，其应用需求逐渐从结构化的工业环境转向开放、动态的人类生活环境。然而，智能机器人的算法研究仍然面临巨大的数据瓶颈，严重限制了相关算法的泛化能力和适用性。

具体而言，当前智能机器人的数据采集仍然面临以下挑战：

Cost and Safety problem：基于遥操作或通用操作接口 (UMI) 的数据采集策略对硬件提出了更高的要求，并要求操作员具备一定的熟练程度，这给数据采集过程带来了财务问题。此外，物理实验还引发了与危险场景或机器人动作相关的安全问题；
Control and Repeatability problem：数据采集过程受光照、背景和传感器噪声等诸多因素的影响，这些因素会影响数据质量。为了控制所有这些因素，必须精心设计采集场景。此外，由于场景无法完全控制，因此很难重复使用相同的设置进行验证实验。

为了解决上述瓶颈，模拟到现实 Sim2Real 迁移已成为克服数据限制的关键方法。该范式构建高保真虚拟环境以生成多模态合成数据，具有以下几个关键优势：

Significantly improved data generation efficiency：在模拟器中使用 GPU 加速物理引擎和分布式渲染，可以快速生成大量模拟数据，从而使数据收集过程既经济高效又安全；
Automated annotation and controllable semantic labeling：自动注释和可控语义 tokens：模拟器可以直接输出像素级真实数据，包括语义分割图、深度图和 6D 物体姿态，从而实现对模拟环境的精确控制。此外，模拟器还为调试、验证和优化机器人感知、控制和规划算法提供了高效、安全且可重复的测试平台，从而增强了它们在实际部署过程中的鲁棒性和可靠性；

本章重点介绍当代机器人研究中的主流模拟器。首先介绍广泛采用的模拟平台，然后介绍它们的各种功能，包括物理模拟特性、渲染功能以及传感器/关节组件支持能力。最后，我们总结了机器人模拟器的当前发展，并讨论了未来的研究方向。

4.1 Mainstream Simulators

在这里插入图片描述

Webots - 1998

Webots 由 Cyberbotics Ltd. 于 1998 年推出，它提供了一个集成的机器人建模、编程和仿真框架，并在教育、工业和学术领域得到了广泛的应用；2018 年开源，显著提升了其在全球范围内研究和教育领域的可访问性。Webots 提供了丰富的预建机器人模型，支持各种传感器模式，跨平台，并提供多语言 API，使其成为一款功能多样且用户友好的工具。然而，它缺乏对可变形体和流体动力学的支持，并且在高级物理学和大规模学习任务中表现出局限性。

Gazebo - 2002

Gazebo 由南加州大学的 Andrew Howard 和 Nate Koenig 于 2002 年开发，是一款广泛采用的开源模拟器，以其可扩展性和与机器人中间件的集成而闻名。除了支持广泛的传感器和机器人模型外，Gazebo 还具有模块化插件系统，使用户能够自定义模拟组件，包括模型、控制器和传感器。该系统还允许用户与各种物理和渲染引擎进行交互。然而，在高级物理交互方面，它与 Webots 存在类似的局限性，缺乏对基于吸力的抓取、可变形物体和流体动力学的支持。Webots 和 Gazebo 都与机器人操作系统 (ROS) 紧密集成，从而能够在 ROS 生态系统中无缝测试和验证机器人算法。尽管如此，它们 并不提供对并行执行或强化学习工作流程的原生支持。

MuJoCo - 2021

MuJoCo 物理引擎由华盛顿大学 Emo Todorov 教授团队于 2012 年开发，后于 2021 年被谷歌 DeepMind 收购。MuJoCo 专为模拟铰接系统中接触丰富的动力学而设计，提供高精度物理计算、优化的广义坐标公式以及对生物力学建模的原生支持。MuJoCo 将接触约束公式化为凸优化问题。这种方法能够精确模拟复杂的相互作用，包括软接触、摩擦行为和肌腱驱动运动。同时，它克服了传统引擎的常见局限性，例如相互渗透和不稳定性。即使在较大的模拟时间步长下，它也能保持数值精度和计算效率。该引擎支持基于轻量级 XML 的建模格式 (MJCF/URDF)，并提供多语言 API（Python、C++），从而实现快速模型构建和迭代。这些特性使其在机器人技术和强化学习研究中得到广泛应用。总体而言，MuJoCo 在接触动力学和强化学习应用方面表现出色，并支持 ROS 集成，但由于其 OpenGL 后端，渲染能力有限，并且缺乏对流体、离散元 (DEM) 或激光雷达 (LiDAR) 模拟的支持。

随着机器人技术和人工智能的快速发展，对高效仿真工具的需求也日益增长。Bullet 物理引擎的原始开发者 Erwin Coumans 于 2017 年推出了 PyBullet。PyBullet 将 Bullet 的强大功能封装在 Python 接口中，旨在为研究人员和开发人员提供一个轻量级且易于集成的仿真平台。尽管 PyBullet 在模拟逼真度和功能丰富性方面略逊于一些主流模拟器，但由于其开源特性、轻量级设计、用户友好的 Python 界面和易用性，它在学术界得到了广泛的应用。随着时间的推移，它已经培养了一个庞大而活跃的用户社区。

CoppeliaSim - 2010

前身为 V-REP（虚拟机器人实验平台），最初由东芝公司于 2010 年左右发布，是一款面向开发人员、研究人员和教育工作者的通用机器人仿真软件。自 2019 年起，瑞士公司 Coppelia Robotics 对其进行了进一步开发和维护。CoppeliaSim 的核心优势在于其 分布式控制架构，允许 Python 和 Lua 脚本或 C/C++ 插件作为独立的同步控制器运行。其他异步控制器可以通过各种中间件解决方案（例如 ROS、远程 API）执行，并支持跨独立进程、线程甚至机器与 C/C++、Python、Java 和 MAT LAB 集成。CoppeliaSim 的教育版是开源且免费提供的，因此在学术和教育领域被广泛采用。

随着机器人技术、强化学习和逼真模拟的日益融合，对可扩展、GPU 加速模拟平台的需求激增。NVIDIA Isaac 系列通过为机器人开发和具身化 AI 研究建立闭环技术生态系统来满足这一需求。它的演变反映了从孤立的加速工具到全面的全栈模拟基础设施的转变。Isaac Gym 于 2021 年推出，通过同时并行训练数千个环境，开创了大规模 GPU 加速物理模拟的先河。它基于 NVIDIA 的 PhysX 引擎构建，显著提高了运动控制和足式机器人策略学习等任务的采样效率。然而，由于缺乏光线追踪支持，Isaac Gym 在渲染保真度方面受到限制，并且不提供流体或激光雷达模拟功能。

Isaac Sim

随后，NVIDIA 推出了集成 Omniverse 平台的 Isaac Sim，这是一款基于 Omniverse 构建的全功能数字孪生模拟器。它集成了 PhysX 5 物理引擎和基于 RTX 的实时光线追踪技术，可实现毫米级精度的高保真激光雷达 (LiDAR) 模拟。通过采用 USD（通用场景描述）标准，Isaac Sim 支持对多模态传感器（包括 RGB-D 摄像头和 IMU）进行物理精确模拟。2025 年发布的 Isaac Sim 5.0 进一步改进了刚体动量守恒，添加了关节可视化工具，并引入了模拟数据分析模块，使机械臂抓取精度达到 0.1 毫米以内。

Isaac Lab

是一个基于 Isaac Sim 构建的模块化强化学习框架，旨在简化和优化机器人学习流程。它采用分块渲染技术高效处理多摄像头输入，将训练吞吐量提升约 1.2 倍。Isaac Lab 同时支持模仿学习和强化学习范式，能够从 HDF5 格式的演示数据集快速构建策略。Isaac Gym 的并行计算功能现已深度集成到 Isaac Sim 的底层架构中。基于 Isaac Sim，Isaac Lab 采用模块化设计，将模拟环境抽象为可配置的任务单元。这个不断发展的软件堆栈正在朝着支持异构物理引擎（包括刚体和软体动力学）、模拟到现实的迁移以及生成式人工智能驱动的场景合成（例如 Cosmos 世界模型）的方向发展，从而为具身智能研究提供统一的基础架构——从低级物理到高级行为学习。然而，它继承了 Isaac Sim 的高硬件要求，这可能会限制资源受限用户的使用。Isaac Sim 和 Isaac Lab 都已发布早期开发者预览版，预计将逐步开源。

SAPIEN - 2020

由加州大学圣地亚哥分校及其合作机构的研究人员于2020年推出，这是一个旨在对复杂的、部件级交互对象进行物理真实感建模的仿真平台，其范围超越了传统的刚体动力学。为了支持关节式物体操控的研究，作者发布了 PartNet-Mobility 一个包含带运动注释的关节式3D对象的综合数据集。基于SAPIEN引擎，研究团队后来推出了ManiSkill 和 ManiSkill3 基准测试，它们提供了多样化的操控任务、高质量的演示以及高效的并行数据收集流程。该生态系统已成为一个广泛使用的基准测试套件，用于评估基于物理的现实环境中的操控策略和具身智能算法。 SAPIEN 提供交互式可视化功能，支持 RGB 和 IMU 传感器，并与 ManiSkill 基准测试紧密结合。然而，它缺乏对软体和流体动力学、光线追踪、激光雷达、GPS 和 ROS 集成的支持，这限制了其在更广泛的机器人模拟场景中的应用。

Genesis - 2024

Genesis 于 2024 年发布，是一个由全球研究人员组成的联盟开发的 通用物理模拟平台。其核心目标是将各种物理求解器（包括刚体动力学、物质点法 (MPM)、光滑粒子流体动力学 (SPH)、有限元法 (FEM)、基于位置的动力学 (PBD) 和稳定流体求解器）统一到一个高保真框架中，该框架能够最大程度地真实地捕捉复杂的物理现象。Genesis 的一项关键创新是其生成数据引擎，它使用户能够指定模拟场景并根据自然语言提示生成多模态数据集。Genesis 以可微性为基本设计原则，非常适合具身智能、物理推理和可微模拟等领域的应用。根据公开基准测试，Genesis 在 512 到 32,768 个批次大小的环境中，吞吐量比 Isaac Gym 提高了 2.70 倍到 11.79 倍。该平台目前正在分阶段开源。尽管 Genesis 实力雄厚，但它尚不支持 LiDAR 或 GPS 模拟，也不提供 ROS 集成。

Newton - 2025

NVIDIA Newton 是由 NVIDIA、Google Deep Mind 和 Disney Research 于 2025 年联合开发的开源物理引擎。Newton 面向 高保真仿真和机器人学习，提供了从基础物理建模到复杂多物理场交互的全栈框架。它基于 NVIDIA Warp 框架构建，通过 GPU 加速实现了超过 70 倍的仿真加速，并支持刚体/软体动力学、接触和摩擦建模以及自定义求解器集成。Newton 旨在与 MuJoCo Playground 和 Isaac Lab 等现有的机器人学习平台深度兼容，从而允许无缝重用现有的机器人模型和训练流程。凭借其可微分物理引擎，Newton 能够通过仿真实现梯度的反向传播，为基于学习的控制优化提供了坚实的数学基础。此外，其基于 OpenUSD 的场景构建功能能够在细粒度级别上将物理定律与虚拟环境协调一致。尽管牛顿生态系统仍处于早期开发阶段，但它正在快速发展，旨在弥合工业操控和人形运动规划等领域的模拟与现实之间的差距。

4.2 Physical Properties of Simulators

智能机器人需要在复杂动态的环境中执行类似人类的行为，例如抓取、行走和协作。在此背景下，模拟器的物理建模能力直接决定了生成数据的真实度和策略迁移的有效性。高保真物理属性模拟不仅可以增强环境交互的真实度（例如，软体变形、流体动力学引起的质心偏移），还可以 通过引入随机扰动来提高算法的泛化能力，防止策略过度拟合模拟环境。这反过来又拓宽了人形机器人算法在更广泛场景中的适用性。本节对上述模拟器进行了比较分析，重点关注它们模拟各种物理属性的能力。本小节选取了对人形机器人和世界模型尤为重要的物理属性，并比较了不同模拟器对这些属性的支持情况。表2总结了不同模拟器对各种物理模拟的支持情况。

在这里插入图片描述

4.2.1 Suction

在机器人仿真中，suction modeling 主要指 接触界面处的非刚性附着行为，例如模拟真空吸力来抓取物体。此功能广泛应用于工业自动化和仓库拣选。

目前，主流机器人仿真平台在吸力效果的实现上各有不同。MuJoCo 依靠用户定义的逻辑，通过检测接触并施加外力或创建虚拟链接来模拟吸力，精度和控制能力有限。Gazebo 通过插件实现吸力，这些插件可以根据接触动态创建关节，从而能够更灵活地控制机械行为。相比之下，Webots、CoppeliaSim 和 Isaac Sim 则提供了对吸力的原生模块支持，使用起来更加方便。

4.2.2 Random external forces

随机外力旨在 模拟环境中的不确定性，例如物体碰撞、风力等。将随机外力应用于人形机器人，可以更好地增强其平衡能力和抗干扰能力，从而防止稳定环境中训练策略的过拟合。

大多数主流机器人仿真平台都支持随机外力的模拟，尽管它们的实现方式各不相同。MuJoCo、PyBullet、SAPIEN、CoppeliaSim 和 Isaac Gym 主要依靠用户自定义方法（通过脚本或 API）来施加此类扰动。此外，Isaac Gym 提供并行控制接口，能够在大规模场景中高效添加随机扰动。相比之下，Webots、Gazebo、Isaac Sim 和 Isaac Lab 提供了完善的接口，允许通过随机速度直接施加随机力或扰动。

4.2.3 Deformable objects

可变形物体是指在 外力作用下发生形状变化的材料，广泛用于模拟柔性材料（例如布料、绳索和软体机器人）的物理行为。主流机器人模拟器对可变形物体模拟的支持范围从基础到高保真。MuJoCo 和 PyBul 等平台为简单的可变形实体（例如布料或弹性材料）提供了基础的软体功能。相比之下，Isaac Gym、Isaac Sim 和 Isaac Lab 提供了更先进的解决方案。它们利用 GPU 加速或基于 PhysX 的有限元方法实现更精细的控制和更高的真实感。Genesis 通过集成最先进的物理求解器进一步扩展了这些功能，从而能够对复杂的可变形材料进行详细且高精度的模拟。

4.2.4 Soft-body contacts

与可变形物体不同，软体接触是指模拟 软材料之间的相互作用，例如布料、橡胶等。这类模拟涉及复杂的变形响应和力的传递过程，广泛应用于可变形材料的操控、碰撞和接触力学研究。

目前主流的模拟器主要在两个层面支持软体接触模拟：基础支持 和 高精度建模。Webots、Gazebo、MuJoCo、Cop peliaSim 和 PyBullet 通过软接触参数、简化接触模型或铰接式车身结构提供基础模拟能力，适用于通用应用。相比之下，Isaac Gym、Isaac Sim、Isaac Lab 和 Genesis 则利用 GPU 加速或有限元建模 (FEM) 等方法提供更先进、更精确的模拟，使其更适合复杂的物理交互场景。

4.2.5 Fluid mechanism

流体机制模拟是指 **对液体和气体等流体的运动和相互作用进行计算建模。此类模拟广泛应用于工程和机器人领域，使研究人员和工程师能够预测和分析各种条件下的流体行为，优化系统设计，提高效率并降低成本。

主流模拟器在流体机制支持方面差异显著。Webots 和 Gazebo 提供基本的流体模拟功能，适用于模拟浮力和阻力等简单相互作用，但精度有限；基于 Omniverse 和 PhysX 构建的 Isaac Sim 通过基于粒子的方法支持更复杂的流体行为；Genesis 集成了先进的物理求解器，提供对高保真流体模拟的原生支持，是目前最全面、最精确的平台之一。其他主流模拟器目前缺乏对流体机制的原生支持，但存在有限的社区驱动扩展，例如 Isaac Lab。

4.2.6 DEM(Discrete Element Method) simulation

离散元法 (DEM) 是一种数值模拟技术，它将物体建模为刚性颗粒的集合，模拟颗粒之间的接触、碰撞和摩擦等相互作用。它广泛用于模拟颗粒材料和粉末的物理行为。DEM 能够准确捕捉颗粒系统的微观力学特性，但计算成本较高，通常可以通过并行计算或 GPU 加速来降低成本。在机器人仿真中，DEM 可用于模拟机器人与颗粒材料之间的相互作用，例如抓取和操控。

然而，目前主流的模拟器并不原生支持DEM。虽然MuJoCo和Isaac系列等平台可以模拟颗粒材料，但它们的接触模型并未针对颗粒物质的微观相互作用进行专门优化。值得注意的是，Gazebo支持通过插件进行功能扩展，而NASA的 OceanWATERS 项目将DEM模拟与Gazebo集成，从而实现颗粒材料行为的间接模拟。这种方法主要支持挖掘等任务中的力反馈，而非实时粒子级模拟。

4.2.7 Differentiable physics

在模拟领域，可微分物理是指 模拟器计算物理状态相对于输入参数（例如控制信号、物体姿态和物理属性）梯度的能力。此功能可实现端到端优化和学习，并允许与机器学习模型（尤其是强化学习和优化算法）无缝集成，从而实现高效的自学习并提升任务性能。

近期，多个仿真平台在支持可微分物理方面取得了快速进展。MuJoCo 的 XLA 分支（MuJoCo XLA）通过 JAX 支持可微分模拟，从而允许梯度计算和优化任务。PyBullet 通过其子项目 Tiny Differentiable Simulator 提供了可微分接口，适用于基于梯度的学习和优化。Genesis 从一开始就融入了可微分特性，已在其 MPM 求解器中实现了可微分物理，并计划将其扩展到刚体和铰接系统求解器。总体而言，这些平台越来越多地将高保真物理建模与自动微分相结合，加速了可微分模拟在具身智能和机器人学习中的部署。

4.3 Rendering Capabilities

仿真渲染能力在现代机器人研发中至关重要。它们不仅为研究人员提供高效的虚拟实验环境，还能确保机器人的外观和行为更加逼真，预测也更加准确。高保真渲染在缩小模拟与现实（sim-to-real）之间的差距方面发挥着至关重要的作用。这对于机器人开发的各个阶段（包括设计、验证和优化）都至关重要，并且能够显著增强感知、控制和同步定位与地图构建 (SLAM) 算法在实际部署过程中的鲁棒性和可靠性。

本小节对上述模拟器的渲染能力进行了比较分析，重点关注四个关键技术方面：底层渲染引擎、光线追踪支持、基于物理的渲染 (PBR) 实现以及并行渲染能力。结果如 Table.3 所示。

在这里插入图片描述

4.3.1 Rendering Engine

渲染引擎是用于根据 3D 场景描述创建 2D 图像的核心软件。其任务包括：处理几何数据、应用纹理、计算各种光源的照明，以及 执行着色模型 来确定表面的最终外观。

OpenGL 是一个历史悠久的跨平台图形 API，被广泛采用。Webots 采用其专有的 Webots 渲染引擎 (WREN)，该引擎基于 OpenGL 3.3 构建。WREN 专门针对 GPU 硬件进行了优化，并根据 Webots 仿真平台量身定制，融合了抗锯齿、分辨率增强、环境光遮蔽和完整的 PBR 渲染管线等功能。MuJoCo 采用基于固定函数 OpenGL 实现的集成渲染器，通过预加载 GPU 资源来提高效率，但仅限于基本的视觉效果。CoppeliaSim 利用内置的基于 OpenGL 的渲染引擎进行实时光栅化。PyBullet 通过 GPU 上的 OpenGL 提供基本渲染，并包含基于 CPU 的软件渲染器 TinyRender，适用于无头或非 GPU 场景。

随着 OpenGL 的功能逐渐无法满足实际需求，后续渲染引擎采用了功能更丰富的图形 API，以更好地利用 GPU 资源并实现更高的渲染性能。Isaac Gym 使用 Vulkan 实现其轻量级 GUI 可视化。这款基于 Vulkan 的查看器并非以高保真渲染为目标，而是为调试和模拟工作流程提供高效、实时的视觉反馈。后续的 NVIDIA Isaac 套件则采用了更先进的方法。Isaac Sim 和 Isaac Lab 与 NVIDIA Omniverse 生态系统深度集成。它们采用 Omniverse RTX 渲染器和 Hydra 渲染委托，利用 NVIDIA 的 RTX 技术实现高保真图形。SAPIEN 采用基于 Vulkan 图形 API 构建的定制高性能渲染引擎，称为 SapienRenderer。 Genesis 采用原生渲染流水线，集成了 PyRender 和 LuisaRender 等尖端框架。

4.3.2 Ray Tracing

光线追踪是一种渲染技术，通过追踪光线与 3D 场景中的表面相互作用时的路径来模拟光的物理行为。与机器人技术中传统的光栅化相比，它的主要优势在于 能够生成高精度的阴影、反射、折射、全局照明，以及至关重要的是，能够更真实地模拟激光雷达和深度摄像头等传感器。光栅化通常难以处理非线性光学传感器和复杂的光相互作用。

在评测的模拟器中，Webots、MuJoCo 和 PyBullet 不提供原生实时光线追踪功能，主要依靠光栅化实现视觉输出；CoppeliaSim 集成了 POV-Ray 追踪器，能够生成带有光线追踪的高质量静态图像，但不支持动态模拟的实时光线追踪；Isaac Gym 中的渲染功能也相对基础，既不支持光线追踪，也不支持 Omniverse 中提供的更复杂的合成数据传感器。相比之下，为高保真视觉输出而构建的模拟器越来越多地采用光线追踪技术；Isaac Sim 和 Isaac Lab 通过 Omniverse RTX 渲染器提供强大的实时光线追踪功能，可实现全局照明、反射和折射等效果；SAPIEN 也提供了强大的光线追踪支持，其基于 Vulkan 的 SapienRenderer 同时支持光栅化和光线追踪管线，可通过着色器包进行选择；Gazebo 虽然主要基于光栅化，但通过其 gz 渲染库中实验性的 NVIDIA OptiX 支持，展示了一条通往光线追踪的道路；Genesis 致力于打造照片级真实感，采用了最先进的高性能渲染器 “LuisaRender”。

4.3.3 Physically-based Rendering

PBR 是一种 基于物理属性建模光与材质相互作用的方法（例如粗糙度和金属度）。这种方法能够 在不同的光照条件下呈现更逼真、更一致的视觉效果，从而提高材质清晰度和视觉保真度，这对于训练基于视觉的机器人学习方法至关重要。

Webots 的 WREN 引擎实现了基于 PBR 的渲染管线，并结合了先进的光照模型和非彩色纹理，从而实现了与现代游戏引擎相当的真实感。现代 Gazebo 通过 Ignition Rendering 也支持基于 PBR 的渲染，其 Ogre 后端也具备 PBR 功能。相比之下，MuJoCo、CoppeliaSim 和 PyBullet 分别专注于基本视觉效果和基础渲染，缺乏对 PBR 的支持。Isaac Gym 使用基于 Vulkan 的基础渲染管线，同样未实现基于 PBR 的渲染。

高保真模拟器支持 PBR。基于 NVIDIA Omniverse 构建的 Isaac Sim 和 Isaac Lab 通过 Omniverse RTX 渲染器原生支持 PBR，并利用材质定义语言 (MDL) 定义逼真的基于物理的材质。SAPIEN 和 Genesis 也支持 PBR。它们的高级渲染功能（包括光线追踪和精确的材质属性表示）是 PBR 系统不可或缺的一部分。

4.3.4 Parallel Rendering

机器人仿真中的并行渲染是指同时渲染多个独立的模拟环境，以用于大规模强化学习或数据收集。其实用性在于显著加快强化学习代理的训练速度，从而高效生成大型合成数据集。

像 Isaac Gym、Isaac Sim/Lab、SAPIEN（特别是支持 ManiSkill）和 Genesis 这样的模拟器都以强大的并行渲染功能作为核心架构特性。Isaac Gym 可以在单个 GPU 上并行模拟和渲染数千个环境，包括摄像头传感器。Isaac Sim 和 Isaac Lab 将其扩展至多 GPU 训练，其中每个进程都可以在专用的 GPU 上运行，并拥有自己的 Isaac Sim 实例，而 Isaac Sim 本身也支持针对复杂场景或多个摄像头的多 GPU 渲染。SAPIEN（特别是支持 ManiSkill3）提供了一个 GPU 并行化的视觉数据收集系统，可实现非常高的 FPS（例如，在高端 GPU 上渲染时可达到 30,000 FPS 以上），并支持异构模拟，其中每个并行环境可以有所不同。

像 Webots、Gazebo、MuJoCo、CoppeliaSim 和 PyBullet 这样的老款或更通用的模拟器可能支持运行多个实例或具有某种形式的物理并行化，但通常缺乏专用平台集成的高吞吐量并行视觉渲染流水线。Webots 允许运行多个实例（例如通过 Docker）并禁用渲染以提高速度，但并行视觉输出并非其主要优势。Gazebo 并行化了其物理引擎，但并非为强化学习的大规模并行视觉输出而设计。MuJoCo 可以运行并行模拟线程，每个实例进行基本渲染或离屏渲染。CoppeliaSim 允许多个场景，但仅渲染活动场景，不适合并行数据收集。PyBullet 支持多个物理服务器和通过 CPU 渲染器进行无头图像捕获，Bullet 物理引擎具有一些多线程功能，但缺乏高吞吐量 GPU 并行视觉渲染。

4.4 Sensor and Joint Component Types

传感器是机器人感知的重要组成部分，通过捕捉视觉、力和惯性等多模态信息，为运动控制和环境理解奠定基础。在仿真平台中，真实可靠的传感器模型为机器人感知算法的调试、验证和数据收集提供了高效、安全且可重复的测试基础。作者调查了主流仿真平台对各种传感器的支持情况。具体而言，考虑的传感器包括惯性测量单元 (IMU)、力接触、RGB 摄像头、激光雷达和 GPS。

如 Table.4 所示，大多数主流仿真平台都为常用传感器提供了标准支持，包括视觉（RGB）、IMU和接触力传感。例如，Isaac Sim和Isaac Lab提供全面的高保真传感器仿真；Isaac Gym支持IMU状态和接触信息输出，但其视觉功能在运行效率和并行处理方面相对有限。在实际应用中，它通常与Isaac Sim或Omniverse结合使用，以实现高质量的视觉感知和处理；Genesis提供全面的多模态传感器支持，使其能够胜任复杂的感知任务。除此之外，不同平台对其他传感器的支持也存在差异。具体而言，Isaac Gym和SAPIEN不提供对LiDAR传感器的原生支持，而MuJoCo、PyBullet和SAPIEN则缺乏对GPS的支持。

在这里插入图片描述

除了传感器建模之外，精确模拟各种关节类型（例如浮动关节、铰链关节、球形关节、棱柱关节、固定关节和螺旋关节）对于在仿真平台中重现机器人的结构和运动特性至关重要。这些关节的组合决定了机器人的自由度 (DOF) 和灵活性，进而影响其在复杂任务中的表现。通过在仿真中对这些关节进行精确建模，开发人员可以在虚拟环境中测试和优化机器人设计和控制策略，从而提高系统性能和可靠性。

如 Fig.15 所示，这些平台中关节组件的模拟通常基于物理引擎提供的运动约束机制，定义两个刚体之间的自由度 (DOF) 来实现关节的运动。浮动关节能够在所有方向上自由移动和旋转。固定关节完全限制两个刚体的相对运动，铰链（旋转）关节允许绕特定轴旋转，平移关节允许沿特定轴进行线性运动，球形关节提供三个旋转自由度。模拟平台通常允许用户设置关节的范围限制、阻尼和弹簧刚度等参数，以模拟实际机械系统的物理特性。一些平台还支持更复杂的关节类型，例如螺旋关节（可实现耦合的旋转和平移运动）。螺旋关节允许两个连接的刚体沿同一轴进行同步旋转和线性运动，类似于螺母内螺钉的推进，具有单自由度和螺旋运动轨迹。Table.4 还总结了主流仿真平台对各种关节类型的支持情况。大多数模拟器支持常见的关节类型，例如浮动关节、固定关节、铰链关节、球形关节和棱柱关节。然而，螺旋关节的支持较少，仅在 Gazebo 和 CoppeliaSim 中原生实现。

在这里插入图片描述

4.5 Discussions and Future Perspectives

模拟器是旨在复制现实世界过程或系统的计算模型，已成为各个科学和工程学科中不可或缺的工具。其主要目的是 为实验、分析和预测提供一个受控的环境，而无需进行昂贵或高风险的物理试验。尽管模拟器被广泛使用，但它既具有显著的优势，也存在明显的局限性，这凸显了对更先进的建模方法（例如世界模型）的需求。

4.5.1 Advantages of Simulators

模拟器具有几个关键优势，使其在研究和实际应用中具有价值：

Cost-effectiveness：通过减少或消除物理实验的需要，模拟器可以显著降低与测试和开发相关的财务负担；
Safety：它们能够模拟危险场景（例如核反应堆故障或极端天气条件），而不会造成现实世界的风险；
Control：模拟器可以对变量和实验条件进行精确控制，使研究人员能够分离特定因素并研究其影响；
Repeatability：在模拟器中进行的实验可以精确重复，确保一致性并有助于验证结果；

4.5.2 Challenges of Simulators

然而，模拟器也面临挑战，这些限制往往会限制其有效性：

Accuracy：模拟器可能无法完全捕捉现实世界系统的复杂性，导致预测不准确。模型设计过程中的简化或近似处理可能会导致模拟结果与实际结果之间的差异；
Complexity：现实世界的系统通常非常复杂，包含众多相互作用的组件和变量。创建一个能够准确反映这种复杂性的模拟器需要耗费大量的计算资源，在某些情况下甚至不可行；
Data dependency：有效的模拟器通常需要大量高质量的数据来校准和验证其模型。在数据稀缺或难以获取的情况下，模拟器的性能可能会受到严重影响；
Overfitting：模拟器可能会过度适应特定场景或数据集，从而降低其泛化至新情况或未知条件的能力。这限制了它们在动态或不断变化的环境中的适用性；

4.5.3 Future Perspectives

准确性、复杂性和数据依赖性的局限性，凸显了对更复杂、适应性更强的建模框架的需求。这推动了世界模型的发展，旨在提供一种更全面、更灵活的方法来理解和预测现实世界的动态。与传统的模拟器不同，世界模型利用机器学习和人工智能的进步来创建能够适应新数据、更高效地处理复杂系统并减少对海量数据集依赖的表征。因此，世界模型的研究代表了追求更稳健、更通用的现实世界现象建模工具的自然演变。

5 World Models

“World models are generative AI models that understand the dynamics of the real world, including physics and spatial properties. ------------ NVIDIA’s World Foundation Models ”

受人脑形成世界内部表征的能力启发，世界模型已成为人工智能的关键框架。这些模型 使智能体能够预测未来状态并规划行动，模拟人类导航和与环境互动的认知过程。2018 年，David Ha 和 Jurgen Schmidhuber 提出了世界模型的概念，表明人工智能可以学习其环境的压缩生成模型，并利用它来模拟体验，从而促进强化学习，而无需与现实世界直接交互。

随着该领域的发展，视频生成模型的进步显著增强了世界模型的能力。自2024年初以来，Sora 和 Kling 等视频生成模型凭借其高保真视频合成和对物理世界的真实建模，引起了学术界和工业界的广泛关注。关于Sora的技术报告题为 “Video Generation Models as World Simulators”，强调了将视频生成模型作为模拟物理世界的鲁棒引擎的潜力。导航世界模型（NWM）采用了条件扩散 Transformer（CDiT），根据过去的经验和导航行为预测未来的视觉观察，这使得智能体能够通过模拟潜在路径并评估其结果来规划导航轨迹。

Yann LeCun 也强调了基于视频的世界模型的重要性，指出人类通过视觉体验尤其是双目视觉，发展出对世界的内部模型。他认为，人工智能要达到人类水平的认知，必须以类似于人类的方式学习，主要通过视觉感知。这一观点强调了将视频数据集成到世界模型中以捕捉丰富的空间和时间信息的重要性。他进一步提出了视频联合嵌入预测架构 (V-JEPA) 模型，旨在通过预测视频的缺失部分来学习视频的抽象表示，从而为构建更强大的视觉世界模型提供了新的思路。

基于这些洞见，视频生成模型的最新发展旨在创建更复杂的世界模型，以表征和理解动态环境。通过利用大规模视频数据集和先进的神经架构，这些模型力求复制人类感知世界和与世界互动的方式，为更先进、适应性更强的人工智能系统铺平道路。

本节首先回顾视频生成模型的架构演变，追溯其技术进步，为后续讨论其作为世界模型的作用奠定基础。然后，重点介绍生成模型作为世界模型在各个领域应用的关键进展，包括其作为可控数据生成器的功能，以及其在基于模型的强化学习（model-based RL）中用于动态和奖励建模的应用。

在这里插入图片描述

5.1 Representative Architectures of World Models

为了有效地捕捉复杂环境的动态，世界模型已经演化成一系列多样化的架构范式，每种范式都反映了关于如何表征和预测世界的不同视角。从早期的 compact latent dynamics models 到近期强大的 generative architectures*，这些模型在状态编码、时间依赖关系处理和未来观测建模方面各不相同。一些方法优先考虑 efficient state abstraction and predictive learning in latent space，而另一些方法则侧重于 high-fidelity generation of future sensory inputs such as video or 3D scenes，例如视频或 3D 场景。同时，序列建模、自监督学习和生成式建模的进步，尤其是 Transformer 和扩散模型的进步，深刻地影响了现代世界模型的设计。在本节中，我们将回顾已被广泛采用或最近提出的具有代表性的架构系列，并重点介绍它们的核心建模原则。架构演变的概览如 Fig.17 所示。

在这里插入图片描述

Recurrent State Space Model

循环状态空间模型 (Recurrent State Space Models, RSSM) 是最早出现且应用最广泛的学习世界模型架构之一。其核心思想是使用紧凑的潜在空间来编码环境的演变状态，并使用循环结构对其时间动态进行建模。这种设计通过在潜在空间中模拟可能的未来，而不是直接预测原始观测值，从而实现长期预测和决策。RSSM 框架由 Dreamer 系列推广，该系列证明了规划和强化学习可以在学习到的潜在动态中有效地进行。潜在转换的循环建模仍然是在连续环境中学习预测和决策感知表征的核心机制。

Joint-Embedding Predictive Architecture

与RSSM类似，联合嵌入预测架构（Joint-Embedding Predictive Architectures, JEPA）也在抽象的潜在空间中对世界进行建模，但学习目标有所不同。JEPA模型并非重建视觉观察，而是 以纯自监督的方式训练，用于预测缺失内容的抽象层级表征。JEPA最初由Yann Lecun提出，作为自主机器智能更广泛框架的一部分。JEPA通过将预测构建为一个表征匹配问题，消除了对显式生成解码器的需求。I-JEPA（图像JEPA）和V-JEPA（视频JEPA）分别在静态域和时间域中实例化了这一思想。I-JEPA学习直接在潜在空间中预测被遮蔽的图像区域，而 V-JEPA 将其扩展到时空结构，从而能够在无需帧级重构的情况下从视频中进行表征学习。这种架构对于大规模预训练尤其有吸引力，因为在这种环境中，语义抽象和数据效率优先于精确的观察合成。

Transformer-based State Space Models

随着世界模型扩展到更复杂的环境和更长的视野，循环架构在建模长距离依赖关系方面的局限性变得更加明显。基于 Transformer 的模型通过用基于注意力机制的序列建模取代 RNN 来解决这个问题，从而提供更高的表达能力和并行性。在潜在动态建模中，这种转变的典型代表是 Trans Dreamer、TWM 和谷歌 Deepmind 的 Genie 等作品，它们使用 Transformer 来建模扩展时间窗口内潜在状态空间中的转换。这些模型保留了 RSSM 的潜在空间预测理念，但 受益于 Transformer 能够跨时间捕捉全局上下文，从而提高了长视野一致性和规划性能。

Autoregressive Generative World Models

受自然语言处理领域最新突破的启发，自回归生成模型将世界建模视为对tokens 化视觉观察的序列预测任务。这些模型利用 Transformer 架构生成基于过去上下文的未来观察，通常集成动作或语言等多模态输入。早期的视频生成框架，如 CogVideo、NUWA 和 VideoPoet，通过展示可扩展的逼真视频自回归合成，奠定了基础。在此基础上，近期用于自动驾驶和 3D 场景生成的生成世界模型，如 GAIA-1 和 OccWorld，结合自回归 Transformer，通过多模态输入和输出来建模复杂的环境动态。然而，离散 tokens 量化经常导致高频细节的丢失，从而对生成的视频的视觉质量产生不利影响。

在这里插入图片描述

Diffusion-based Generative World Models

近年来，扩散模型已迅速成为视频生成的基石，在合成时间一致的视觉序列时提供稳定的训练和卓越的保真度。通过迭代去噪，这些模型能够以高表达力捕捉复杂的数据分布。为了降低计算成本，近期的研究从像素空间扩散（例如 VDM ）转向使用预训练自编码器的潜在空间建模，从而能够高效地级联生成长视频和高分辨率视频（例如 Imagen Video、VideoLDM、SVD）。随着 OpenAI 的 Sora 和 Google Deepmind 的 Veo3 等大规模预训练模型的出现，扩散不仅展现了视觉真实感，还展现了建模 3D 结构和物理动态的能力，这些特质与世界模型的目标紧密相关。

因此，基于扩散的架构如今越来越多地被应用于生成世界模型，其目标是模拟基于现实可控环境的未来观察结果。Drive Dreamer、Vista 和 GAIA-2 等模型应用扩散模型来生成以动作或其他模态为条件的视频或 3D 场景。与自回归模型相比，扩散模型具有更强的时空相干性和更高的视觉质量，使其成为构建高保真、可预测的世界神经模拟器的有力基础。

尽管基于视频扩散的世界模型取得了实质性进展，但 在采样速度、长时长生成以及因果时间动态建模能力方面仍然存在挑战。因此，诸如 Vid2World 和 Epona 等新兴研究正在探索将扩散模型的视觉表现力与自回归模型的时间建模优势相结合，旨在实现逼真且交互性强的基于视频的世界建模。

5.2 Core Roles of World Models

除了架构设计之外，理解世界模型在智能系统中的作用也同样重要 作为环境的通用表示，世界模型在各个领域都发挥着至关重要的推动作用。它们抽象和预测环境动态的能力使它们能够支持远超简单重建任务的下游应用。本节重点介绍世界模型所承担的三个核心角色：

neural simulators：生成可控、高保真合成体验；
dynamic models：作为动态模型，支持基于模型的强化学习中的规划和决策；
reward models：在缺乏密集或明确定义的奖励的情况下，帮助提取有意义的训练信号；

这些观点不仅反映了世界模型的实用性，也指导了未来利用世界模型应对智能时代的研究方向。

5.2.1 World Models as Neural Simulator

生成式世界模型的兴起，释放了在视觉和动作领域模拟复杂可控环境的潜力。这些模型能够合成大小一致、时间连贯且基于语义的视频，这些视频以文本、图像和轨迹等多样化输入为条件，从而为自动驾驶、机器人和虚拟代理提供可扩展的训练和评估。NVIDIA’s Cosmos series 体现了这一方向，Cosmos 提出了一个统一的平台，用于构建基础视频模型作为通用的世界模拟器，并可通过微调适应机器人和自动驾驶等领域。它提供了一个全栈流程：从视频过滤和 tokens 化到预训练和下游自适应，旨在实现高效的开源世界模型开发。

在此基础上，Cosmos-Transfer1 引入了一个空间调节的多模态视频生成器。通过自适应融合控制，它结合了分割图、深度和边缘等结构化输入来指导视频合成。其空间加权机制增强了生成的可控性和多样性，支持模拟到现实的迁移、数据增强以及具有细粒度控制的机器人感知等应用。

除了通用模型外，像 Wayve 的 GAIA 系列这样的领域专用模拟器 专注于逼真且可控的交通模拟。GAIA-1 使用多模态输入（例如语言、视觉和动作）对驾驶视频进行无监督序列建模，以生成离散的视频 token。GAIA-2 通过将结构化先验（车辆状态、道路布局、场景语义）与潜在扩散主干相结合，提高了生成的保真度和控制力，从而能够在不同的交通环境下实现高分辨率、多摄像头一致的视频合成。

除了基于图像的模型外，新兴研究还探索了三维结构化神经模拟器，这些模拟器 能够明确地模拟物理占用或场景几何。DriveWorld 构建了一个城市规模的交通模拟器，其中智能体之间存在因果交互，为具身规划提供了一个结构丰富的环境；DOME 提出了一个基于扩散的世界模型，该模型预测未来的三维占用帧（而非 RGB 像素），从而实现了高保真度、长期预测以及细粒度的可控性。这些方法强调了神经模拟器无需生成 RGB 视频：结构化的三维世界表征同样可以作为控制密集型领域的模拟主干。

总体而言，视频和3D生成模型作为神经模拟器，能够实现可控、高保真且结构丰富的世界合成，成为训练智能代理的传统模拟器的可扩展替代方案。随着表达能力和控制能力的提升，它们在模拟、稀有事件合成和数据驱动决策中的作用预计将在自动驾驶、人形机器人等领域不断增强。

5.2.2 World Models as Dynamic Models

在基于模型的强化学习 (MBRL) 中，代理会构建环境的内部模型。模型通常包括动态模型、奖励模型和策略模型。代理使用该模型模拟与环境的交互，从而帮助其做出更明智的决策，如 Fig.19 所示。代理并非仅仅依赖于现实世界的交互，而是从收集的经验中学习动态模型和奖励模型，然后在模拟环境中进行规划或策略学习。这种环境建模与策略优化的解耦显著提高了样本效率，这在数据收集成本高、速度慢或风险高的场景中尤为重要。

在这里插入图片描述

世界模型可以作为多目标学习（MBRL）中的通用动态模型，通过学习预测未来状态或基于过去交互的观察结果。世界模型并非依赖于手工编写的符号规则或低维物理模拟器，而是直接从数据中学习环境动态的内部表示。这些模型使智能体能够模拟假设的未来，执行规划部署，并通过想象的经验优化行为。根据设计的不同，世界模型可以在像素空间、潜在空间或结构化表示中运行，但它们的共同目标是捕捉环境的时间演变，从而支持高效的策略学习。这种建模灵活性使世界模型能够跨任务泛化，整合丰富的感知输入，并作为复杂领域决策的可扩展基础。

The Dreamer series 系统地探索了基于视觉输入的环境动态潜在空间建模。如 Fig.20 所示，其核心思想是利用变分自编码和状态空间将高维观测值编码为紧凑的、可预测的潜在轨迹，从而通过想象的rollout实现高效的策略学习。

DreamerV1：引入了循环状态空间模型（RSSM），在基于像素的控制基准测试（例如DMC）上表现出色；
DreamerV2 ：引入了离散潜在变量，以提高建模能力和泛化能力，在Atari游戏上取得了与人类水平相当的成绩；
DreamerV3 ：融入了归一化和训练稳定机制，成为第一个在广泛的视觉控制任务中达到最佳性能的通用世界模型；
DayDreamer：通过在物理机器人上部署 Dreamer 式模型，验证了该方法在现实世界的适用性；

在这里插入图片描述

为了提升模型的泛化和迁移能力，近期的研究探索了基于真实世界视频数据对世界模型进行预训练。ContextWM 使用自然视频，以无监督的方式学习可泛化的视觉动态。通过引入上下文调制机制，该模型选择性地关注可预测的时空区域，从而能够在下游机器人和驾驶任务中进行更高效的样本微调。这些结果表明，高质量的视觉预训练可以赋予世界模型跨领域可迁移的先验知识。

除了潜在模型之外，基于 tokens 的方法可以直接在离散视频空间中建模视觉动态。iVideoGPT 就是这方面的一个典型案例，它使用 VQ VAE 将视频、动作和奖励 tokens 化为多模态序列，然后训练一个 Transformer，使其能够根据过去的上下文自回归地预测未来的 tokens。与 Dreamer 式方法不同，iVideoGPT 绕过了显式的状态构建，而是对完整的视频滚动进行采样，以通过标准的 Actor-Critic 方法增强离线策略学习。这种直接建模方法提供了更大的灵活性，并在复杂的多步骤规划任务中展现出强大的泛化能力。

总而言之，世界模型作为一种动态模型，能够使代理基于环境动态进行学习、模拟和规划。无论是在潜在空间还是高维视觉空间中实现，它们都通过将感知、预测和决策统一在一个生成框架中，构成了现代多任务学习 (MBRL) 系统的支柱。

5.2.3 World Models as Reward Models

设计有效的奖励信号仍然是强化学习 (RL) 中的一个根本挑战，尤其是在开放式或复杂的环境中。传统方法通常依赖于手动设计的奖励函数，这些函数定义成本高昂，并且可能无法捕捉到有意义的行为线索。这种局限性促使人们开发能够从弱监督或未标记数据（例如原始视频）中自动推断奖励的方法。

生成世界模型（尤其是那些经过视频预测训练的模型）的最新进展，为奖励推理提供了一个充满希望的方向。这些 模型学习捕捉专家演示的底层动态和结构，使其能够充当隐性奖励模型。关键在于如果代理的行为导致模型更容易预测的轨迹，那么它很可能与训练数据中嵌入的隐性偏好相一致。因此，模型的预测置信度可以被解读为学习到的奖励信号。

VIPER 就是这种方法的典型代表，它基于专家演示训练一个自回归视频世界模型，然后使用该模型在在线代理行为中的预测似然值作为奖励。当代理的行为能够产生高度可预测的轨迹时，它会获得更高的奖励。这使得无需手动定义奖励即可学习高质量的策略。VIPER 在 DMC、Atari 和 RLBench 等视觉控制基准测试中表现出色。此外，由于学习到的世界模型具有泛化能力，它可以在不同的实施和环境中迁移奖励推理，例如机械臂或场景布局的变化。

展望未来，随着长视域建模和多模态条件生成技术的持续进步，生成世界模型将在奖励建模中发挥核心作用，例如人形控制、多智能体协作和具身交互。将动态建模和奖励推理统一在一个生成框架内，有望推动直接从原始视觉体验中学习的通用智能体的发展。

6. World Models for Intelligent Agents

自动驾驶和关节机器人（包括机械臂、四足机器人和人形机器人）是人工智能和具身智能的两大关键应用。自动驾驶汽车可以看作是一种拥有四个轮子的智能机器人，相比人形机器人其行动空间更小。此外，自动驾驶作为人工智能的关键应用，对世界建模提出了严格的要求。自动驾驶系统需要实时理解和预测复杂动态的道路环境。如上一节所述，作为世界模型的视频生成模型已展现出捕捉物理和动态交互的能力，使其非常适合高度动态、高风险的自动驾驶环境。关节机器人（包括机械臂、四足机器人和人形机器人）作为具身智能的核心载体，对世界建模提出了独特而严格的要求。与自动驾驶类似，机器人系统也需要预测和理解周围环境，以便在以人为中心的环境中执行复杂的机车操控任务。

自动驾驶机器人和关节机器人在实际应用中都需要与现实世界进行丰富、长期且安全的交互，这 对现实世界的精确且可预测的建模提出了极高的要求。本节探讨了世界模型在自动驾驶机器人和关节机器人中的应用和挑战，尤其是在基于视频生成的模型中。

6.1 World Models for Autonomous Driving

在这里插入图片描述

传统的自动驾驶架构采用模块化设计，感知、预测、规划和控制等模块相互独立。这种设计虽然有利于开发和测试，但也存在严重的局限性：感知模块中的错误会在处理过程中累积和放大，长期依赖关系的时间建模仍然具有挑战性，并且在不熟悉的场景中性能会显著下降，正如 2018 年 Uber 自动驾驶汽车事故所证明的那样，尽管系统在撞击前 5.6 秒就检测到了行人，但仍然多次未能正确识别行人。

特斯拉在自动驾驶和机器人研发中采用了相似的视觉编码架构，体现了感知技术的共性。基于视频生成的世界模型已成为自动驾驶研究的重点领域，从早期的基础模型发展到如今在场景生成、多视角一致性、闭环仿真和推理方面取得显著进展的复杂系统。与之前讨论过的通用视频生成世界模型不同，专为自动驾驶设计的世界模型优先考虑交通场景的独特特征和安全需求，并由此催生出了一些值得关注的技术方法和应用范例。

遵循 5.2 节中的分类，将自动驾驶世界模型分为三类，如 Fig.21 所示：神经模拟器、动态模型和奖励模型。Fig.22 展示了三种典型的自动驾驶世界模型流程。

在这里插入图片描述

6.1.1 WMs as Neural Simulators for Autonomous Driving

神经模拟器专注于生成逼真的驾驶场景，用于训练和测试自动驾驶系统。
这些模型通常采用多模态输入（图像、文本、动作、轨迹），并生成高保真视频序列，模拟不同的驾驶条件，以进行数据增强和安全验证。

GAIA-1

将世界建模视为自动驾驶中的序列预测，通过自回归 Transformer 架构整合视频、文本和动作输入，从而生成逼真的驾驶场景。该模型利用基于 4,700 小时专有驾驶数据训练的 90 亿参数 Transformer，展现出诸如从同一情境预测不同未来场景以及推理与动态代理交互等涌现行为。其关键创新在于，它能够纯粹基于学习到的理解生成长而多样的驾驶场景，并通过动作条件和文本提示进行可控生成，这些动作条件和文本提示可以影响天气和时间等环境因素。

在此基础上，并从自回归方法过渡到基于扩散的方法，GAIA 2 实现了先进的可控生成，并针对自车动态、多智能体交互和环境因素进行了结构化条件调节。该模型 集成了结构化条件输入和来自专有驾驶模型的外部潜在嵌入，能够对包括英国、美国和德国在内的不同地理环境中的天气、光照和场景几何进行细粒度控制。这种增强的可控性有助于通过高分辨率、时空一致的多摄像头视频生成，对常见和罕见的安全关键驾驶场景进行可扩展模拟。

DriveDreamer

引入了基于扩散的生成方法，并引入了结构化交通约束，这代表了驾驶场景生成的重大进步。该模型通过从实际驾驶场景而非模拟环境中学习，在现实世界数据上展现出卓越的性能。它采用了两阶段训练流程，第一阶段学习结构化交通约束，第二阶段进行未来状态预测。这种方法可以生成精确且可控的视频，忠实地捕捉现实世界交通的结构性约束。DriveDreamer-2 通过集成大型语言模型 (LLM) 增强了 DriveDreamer 框架，以实现自然语言驱动的场景生成。该系统通过 LLM 接口运行，该接口将文本用户查询转换为代理轨迹，然后生成符合交通法规的高清地图 (HDMap)，最后采用统一多视图模型 (UniMVM) 生成具有增强时间和空间连贯性的驾驶视频。这代表了第一个能够根据用户描述生成定制驾驶视频的世界模型，在提升质量的同时，能够生成对稳健自动驾驶训练至关重要的多样化和不常见的驾驶场景。DriveDreamer4D 利用世界模型先验，进一步增强了 4D 驾驶场景表征，从而合成具有明确时空一致性控制的新型轨迹视频。该框架使用现有的世界模型作为“数据机器”，合成具有结构化条件的新型轨迹视频，这些条件明确控制交通要素的时空一致性。一项关键创新是“亲缘数据训练策略”，它有效地融合了真实数据和合成数据，以优化基于 4D 高斯 Splatting 的重建，显著提高了新型轨迹视图的生成质量和时空一致性。

MagicDrive

为了应对 3D 几何控制的挑战，MagicDrive 提出了一种新颖的街景生成框架，该框架可接受多种输入，包括相机姿态、道路地图、3D 边界框和文本描述。该系统针对不同的输入采用定制的编码策略，并集成了跨视图注意模块，以确保跨多个相机视图的一致性，从而实现高保真街景合成，准确捕捉细微的 3D 几何形状以及光照、天气等多样化的场景特征。MagicDrive3D 扩展了此功能，通过一种新颖的两步“先生成，后重建”流程，实现了可控的 3D 生成，适用于任意视图的渲染。该框架首先训练一个条件多视图视频生成模型，然后使用可变形高斯溅射技术，结合单目深度初始化和外观建模，从生成的视频数据重建 3D 场景。该方法代表了第一个有效地将无几何视图合成与以几何为中心的重建相结合的框架，用于使用常见的驾驶数据集生成可控的3D街景。MagicDrive-V2 使用集成了3D变分自编码器的扩散 Transformer (Diffusion Transformer) 架构，将该框架扩展至高分辨率、长时长视频。该系统包含用于多视图视频生成的MVDiT模块、用于精确几何控制的新颖时空条件编码，以及三阶段渐进式引导训练策略，该策略能够合成高达848×1600分辨率和241帧的视频。这代表了自动驾驶应用在输出分辨率、帧数和控制保真度方面的显著进步。

Panacea

专注于生成具有多视图一致性机制和超分辨率功能的全景视频。该框架采用两阶段视频生成模型，首先合成多视角图像，然后根据这些图像构建多视角视频，并结合多视角外观噪声先验机制和超分辨率模块，以生成高质量、高分辨率的 360 度视频。

WoVoGen

专注于多摄像头一致性，引入了明确的四维世界体积作为基础元素，分两个阶段运行，以展望未来的四维时间世界体积，并生成具有传感器互联互通的多摄像头视频。该模型通过巧妙地整合时间与空间数据的四维世界体积，解决了维持世界内部一致性和传感器间一致性的挑战。生成的四维世界特征经过几何变换，为每个摄像头采样三维图像体积，从而能够生成响应车辆控制输入的高质量街景视频，同时保持跨传感器的一致性。

OccSora

最近的研究也探索了占用表征，以实现更结构化的场景理解。Occ Sora 采用基于扩散的 4D 占用生成模型来模拟 3D 世界的发展，生成了具有真实 3D 布局和时间一致性的 16 秒视频。该框架使用 4D 场景特征化器从 4D 占用输入中获得紧凑、离散的时空表征，然后使用基于这些表征训练的扩散 Transformer 来生成轨迹条件的 4D 占用。

Drive World

使用 基于占用的记忆状态空间模型 (MSSM)，通过学习多摄像头驾驶视频来实现 4D 场景理解。该框架包含一个用于时间感知潜在动态的动态记忆库 (Dynamic Memory Bank) 和一个用于空间感知潜在静态的静态场景传播模块。这种方法实现了全面的 4D 场景理解，有利于各种以视觉为中心的感知、预测和规划任务，并在多个自动驾驶基准测试中展现出性能提升。

DriveOccWorld

通过语义和运动条件归一化技术，将占用预测与端到端规划相结合。该框架包含一个记忆模块，可以积累来自历史 BEV 嵌入的语义和动态信息，从而通过灵活的行动条件实现可控的未来状态生成。这种预测能力与端到端规划的结合，为驱动世界生成和集成规划系统开辟了新的途径。

InfinityDrive

旨在解决生成结果的时间跨度挑战，通过 能够在较长时间内保持一致性的生成模型，实现了相当长的驾驶序列的生成。该框架解决了采样速度、长时长生成和时间一致性方面的挑战，旨在为自动驾驶应用实现可控、高效且逼真的基于视频的世界建模。

ReconDreamer

通过在线恢复和渐进式数据更新策略增强了闭环仿真的驾驶场景重建。该框架引入了 “DriveRestorer” ，这是一个基于世界模型的组件，它通过在线恢复和渐进式数据更新来减轻重影伪影，从而确保高质量的渲染，尤其是在大型复杂操作中。这是第一种有效渲染大型操作（例如跨度高达 6 米的多车道变换）的方法。

6.1.2 WMs as Dynamic Models for Autonomous Driving

动态模型专注于学习驾驶环境中的底层物理和运动模式，主要用于感知、预测和规划任务，而非高保真生成。这些模型学习环境动态，以实现更明智的决策和长期规划。

MILE

通过联合学习预测世界模型和来自专家演示的驾驶策略，开创了基于模型的城市驾驶模仿学习。该框架通过高分辨率视频输入和3D几何作为归纳偏差，显著提高了驾驶得分，证明了世界模型如何作为复杂城市环境中策略学习的有效基础。联合学习方法使模型能够同时捕捉环境动态和适当的驾驶行为。

TrafficBots

通过条件变分自编码器，解决了具有可配置代理个性的多智能体交通模拟问题，从而实现了对各种驾驶行为的可扩展模拟。该系统引入了基于目的地的导航和时不变个性潜能，以控制从激进到谨慎的代理行为风格，为模拟交通场景中真实的多智能体交互提供了一个全面的框架。

UniWorld

为了更好地理解三维空间，基于占用率表示，采用四维几何占用率预测作为基础预训练任务，在运动预测、三维物体检测和语义场景补全方面取得了显著提升。该框架展示了四维占用率预测如何作为统一的预训练目标，通过全面的时空场景理解，使多个下游自动驾驶任务受益。

OccWorld

使用矢量量化变分自编码器从 3D 占用数据中学习离散场景 tokens，实现类似 GPT 的时空生成模型。该方法将场景理解重新表述为序列建模问题，从而能够高效地自回归预测未来的占用状态，同时在扩展的视界内保持空间和时间的一致性。

GaussianWorld

将 3D 占用预测重新表述为 4D 占用预测，使用高斯世界模型来推断场景演变，同时考虑自身运动、动态物体和新观察到的区域。该框架利用老化的高斯表示来模拟不确定性和时间动态，从而能够在包含多个移动主体和不断变化的环境条件的复杂驾驶场景中实现更稳健的预测。

DFIT-OccWorld

通过解耦动态流引入了一种高效的占用世界模型，将占用预测重新表述为具有图像辅助训练范式的体素扭曲过程。该方法通过分离静态和动态场景元素，在保持预测精度的同时提高了计算效率，从而能够在实时自动驾驶系统中实现更具可扩展性的部署。

MUVO

解决了传感器融合和几何理解问题，并结合了空间体素表示，从摄像头和激光雷达数据中学习与传感器无关的几何理解。该框架通过将多模态传感器输入集成到统一的三维表示中，解决了现有世界模型中对物理和几何属性的忽视，从而实现了更全面的场景理解，弥合了不同传感器模态之间的差距。

ViDAR

引入了视觉点云预测作为预训练任务，仅基于历史视觉输入预测未来的 LiDAR 点云，以促进语义、三维结构和时间动态的协同学习。这种跨模态方法展示了世界模型如何在保持时空同步的同时学习在不同传感器模态之间进行转换。

LAW

提出了一种无需感知标签的自监督学习方法，该方法基于当前观察和自我车辆动作来预测未来的潜在特征。这种方法显著减少了对昂贵的人工标注的依赖，同时能够通过潜在特征预测有效地学习环境动态。该框架展示了如何在无需密集监督的情况下高效地训练世界模型，使其更适合大规模部署。

Think2Drive

通过在紧凑的潜在世界模型中训练神经规划器，展示了在潜在空间中高效的强化学习，并在复杂的城市场景中达到了专家级的熟练程度。该框架展示了潜在世界模型如何通过将复杂的高维观测数据抽象为可管理的潜在表示，从而实现高效的规划和决策，这些潜在表示保留了控制所需的基本信息。

HERMES

在一个框架内统一了3D场景的理解和生成，它使用鸟瞰视图表示和“世界查询”，并通过因果注意力机制整合世界知识。该框架展示了世界模型如何整合理解和生成能力，从而在一个统一的架构中实现感知和模拟，并利用因果注意力机制来改进时间建模。

Cosmos-Reason1

代表了将物理常识与具身推理相结合的前沿探索，它能够生成更符合物理定律的场景，同时推理可能的物理交互。这项工作通过将物理推理能力融入世界模型，推动了该领域的发展，从而能够更真实地模拟驾驶场景中复杂的物理交互。

Doe-1

将自动驾驶表述为一个使用多模态 token（观察、描述和动作）的下一个token生成问题，通过自回归生成实现统一的感知、预测和规划。该方法展示了语言模型架构如何适用于自动驾驶，它将所有模态视为统一序列中的token，从而实现跨感知和控制任务的端到端学习。

DrivingGPT

将驾驶世界建模与轨迹规划相结合，使用多模态自回归 Transformer，将交错的离散视觉和动作 tokens 视为统一的“驾驶语言”。该框架展示了如何将驾驶问题表述为一个语言建模问题，使得大规模语言模型技术能够应用于自动驾驶，同时保持对视觉输入和控制输出进行推理的能力。

6.1.3 WMs as Reward Models for Autonomous Driving

奖励模型评估驾驶行为的质量和安全性，通常与强化学习相结合以进行策略优化。这些模型使用世界模型预测来评估轨迹安全性并指导决策，而无需手动设计奖励函数。

Vista

利用模型自身的模拟能力，展示了可泛化的奖励函数，建立了一种新颖的方法，即世界模型本身通过模拟潜在驾驶操作的结果来评估其质量或安全性。该系统支持从高级意图到低级操作的多种动作可控性。这种自我评估能力使模型能够为安全驾驶行为提供内在动机，而无需人工进行奖励工程。

WoTE

专注于使用鸟瞰世界模型进行轨迹评估，以实现端到端自动驾驶系统中的实时安全性评估。该框架利用鸟瞰世界模型预测未来状态，并比图像级方法更有效地评估轨迹安全性，在 NAVSIM 和 Bench2Drive 基准测试中展现出最佳性能。该方法能够在实时自动驾驶应用中实现持续的安全监控和轨迹评估。

Drive-WM

通过联合时空建模和视角分解，实现了基于图像的奖励评估，从而实现了多未来轨迹探索。该系统可以根据不同的驾驶操作模拟多种可能的未来，并通过使用基于图像的奖励评估想象的未来来确定最佳轨迹。此功能通过基于世界模型的 “what-if” 推理支持安全驾驶规划，使系统能够在执行之前探索和评估多种潜在行动。

Iso-Dream

解决了驾驶环境中可控动态与不可控动态分离的难题。该方法 通过将可控动态（自身车辆动作）与不可控动态（其他车辆、环境变化）分离，增强了基于模型的强化学习，从而能够在复杂的交通场景中实现更有效的长期规划和决策。这种分离使得学习能够更专注于可控方面，同时正确地建模环境不确定性。

6.1.4 Technical Trends and Implications

自动驾驶世界模型的演变揭示了四大技术趋势，这些趋势正在重塑我们进行车辆模拟和测试的方式：

Generative Architecture Evolution from Autoregressive to Diffusion Models

早期的自动驾驶世界模型（例如 GAIA-1）采用了自回归 Transformer 架构，通过顺序 token 生成来预测未来驾驶场景。虽然这些方法在学习高级场景结构方面表现出强大的能力，但由于 token 预测的顺序性，它们在生成长时间、高保真驾驶视频时面临着巨大的计算挑战。此后，该领域见证了向基于扩散的模型的范式转变，以 DriveDreamer 系列、GAIA-2 和 WoVoGen 为代表，这些模型对生成质量提供了卓越的控制。现代混合架构开始出现，将自回归与基于扩散的场景生成相结合。扩散 Transformer（DiT）在 MagicDrive-V2 等模型中的集成代表了最新的发展，它结合了 Transformer 注意力机制和基于扩散的生成的优势。

Multi-Modal Integration and Controllable Scenario Generation

近期的自动驾驶世界模型已从简单的图像到图像生成发展为复杂的多模态系统，集成了多种输入类型，包括摄像头图像、激光雷达点云、文本描述、车辆轨迹和高清地图。这一发展解决了自动驾驶汽车测试的根本挑战：需要生成具体的、可控的驾驶场景，以便在精确定义的条件下对驾驶系统的不同方面进行压力测试。GAIA-2 和 DriveDreamer-2 等模型体现了这一趋势，它们接受结构化输入，例如自车辆动力学、多智能体配置、环境因素（天气、时间）和道路语义，从而实现对生成场景的细粒度控制。这种多模态方法还有助于生成可覆盖 360 度的同步多摄像头视图。这些进步将世界模型转变为主动模拟工具，可以探索各种可能的驾驶场景，从而更高效地验证自动驾驶系统。

3D Spatial-Temporal Understanding and OccupancyBased Representations:

自动驾驶世界模型中出现的一个基本分支是 构建一个全面的3D时空建模，以更好地捕捉驾驶环境的真实本质。早期模型主要侧重于生成逼真的摄像头图像，但这种方法未能提供训练鲁棒感知系统所需的几何一致性和3D理解能力，而这些系统必须能够推理真实驾驶场景中的物体深度、遮挡和空间关系。向3D感知建模的过渡以 OccSora、Drive-OccWorld 和OccWorld 等框架为例，它们 通过4D占用网格来表示驾驶场景，这些网格将空间结构和时间动态编码在一个统一的表示中。这种3D感知建模能力使世界模型不仅可以用作数据生成器，还可以用作综合模拟器，预测驾驶场景如何响应自主车辆的动作而演变。在 GaussianWorld 和 MagicDrive3D 等模型中集成高斯 Splatting 等技术，进一步增强了生成场景的几何保真度，从而实现了新颖的视图合成，并支持开发更强大的感知算法。

End-to-End Integration with Autonomous Driving Pipelines:

现代自动驾驶世界模型越来越多地不再被设计为独立的模拟工具，而是作为模块化端到端自动驾驶的预测组件。像 MILE、LAW、Think2Drive 和 WoTE 这样的模型就体现了这种集成方法，它们联合学习世界动态和驾驶策略，实现端到端优化，从而最大限度地减少不同系统组件之间的错误累积。这种集成延伸到了奖励建模功能，Vista 和 Drive-WM 等框架利用自身的模拟功能来评估轨迹安全性并指导策略学习，而无需手动设计奖励函数。像 Doe 1 和 DrivingGPT 这样的先进集成系统展示了世界模型如何将感知（场景理解）、预测（未来状态预测）和规划（动作生成）统一在一个神经架构中，该架构将所有模态视为统一序列建模问题中的 tokens。这种集成趋势的最终目标是创建能够在统一的学习表征中推理环境、预测未来状态并规划安全行动的自动驾驶系统。

6.2 World Models for Articulated Robots

关节机器人（包括机械臂、四足机器人和人形机器人）作为具身智能的核心载体，对世界模型提出了独特而严格的要求。本节系统地探讨了世界模型在关节机器人控制领域的应用和挑战，重点探讨了基于机器人仿真和多模态学习的方法如何推动机器人技术的范式转变。

在这里插入图片描述

6.2.1 WMs as Neural Simulators for Articulated Robots

世界模型充当神经模拟器，通过学习从多模态输入（例如文本、图像、轨迹）生成时间连贯且语义丰富的物理环境表示。这些生成模型提供了一种可扩展的、数据驱动的替代方案，可以替代传统的基于物理的模拟器，从而实现对自主智能体的高效训练和评估。

Cosmos

一个突出的例子是英伟达的 Cosmos 世界基础模型平台，它建立了一个统一的框架，用于构建能够通过扩散和自回归架构生成物理精确的 3D 视频预测的基础世界模型。通过从结构化输入（例如分割图、深度）合成逼真的可控环境，Cosmos 促进了机器人从模拟到现实的迁移、数据增强和感知训练。Fig.21 展示了 Cosmos-Predict 世界基础模型。该平台的模块化设计支持通过在专用数据集上进行后训练来进行特定任务的微调，并通过从大规模预训练中进行迁移学习，显著减少了数据需求。这种方法弥合了模拟与现实之间的差距，增强了机器人在自动驾驶和机器人操控等动态环境中的学习能力。未来神经模拟保真度和控制方面的进步将进一步扩展其在具身人工智能系统中的作用。

在这里插入图片描述

WHALE

提出了一个可泛化的世界模型框架，该框架具有行为调节和回溯功能，可用于 OOD 泛化和不确定性估计。Whale-ST（时空 transformer）和 Whale-X（414 M 参数模型）在模拟和现实世界操作中展现出增强的可扩展性和性能。

RoboDreamer

通过将视频生成分解为基元，引入了一种用于机器人决策的组合世界模型。它利用语言组合性将其推广到未见过的对象-动作组合和多模态目标，从而在 RT-X 中合成了针对新任务的计划，并在模拟中超越了单片基线。

DreMa

引入了一种组合世界模型，该模型结合了高斯分布和物理模拟，能够明确地复制现实世界的动态，通过等变变换实现逼真的未来预测和数据高效的模仿学习，最终在 Franka 机器人上实现了一次性策略学习，并提高了准确率和泛化能力。

DreamGen

引入了一个 四阶段流程，用于通过神经轨迹训练可泛化的机器人策略，并利用成熟的视频世界模型来合成跨行为和环境的逼真数据。它从生成的视频中恢复伪动作，以最少的真实世界数据实现零样本泛化，并已通过 DreamGen Bench 基准测试验证。

EnerVerse

引入了一种 用于机器人操控的生成式基础模型，采用自回归视频扩散和自由锚点视图 (FAV) 进行 3D 世界建模。该框架在 EnerVerse-D 中集成了 4D 高斯分布，以缩小模拟与现实之间的差距，而 EnerVerse A 则将 4D 表征转化为动作，在模拟和现实世界任务中均实现了最佳性能。

WorldEval

引入了一种 基于世界模型的在线机器人策略评估流程，使用 Policy2Vec 通过潜在动作条件生成动作跟随视频。它实现了可扩展、可重复的策略排序和安全检测，并展示了与现实世界的强大相关性，其性能优于真实到模拟的方法。

Pangu

华为云的盘古世界模型是一个神经模拟器，它合成高保真数字环境（例如摄像头视频、激光雷达点云），用于训练智能驾驶和具身人工智能系统。通过对物理动力学和多模态传感器数据进行建模，它绕过了昂贵的现实世界数据收集。与广汽集团的集成，它实现了快速的极端情况生成和 2D 到 3D 像素映射。CloudRobo 平台通过具身人工智能模型（生成、规划、执行）和 R2C 协议标准化对此进行了扩展，旨在通过基于云的仿真和部署统一机器人开发。

RoboTransfer

提出了一种 用于机器人视觉策略迁移的几何一致性视频扩散框架，将多视角几何与明确的场景控制相结合。通过强化跨视角特征交互和深度/法线条件，该框架合成几何一致性多视角视频，从而提升了模拟到现实策略的性能。该方法能够在保持视觉保真度的同时进行细粒度的场景编辑。

6.2.2 WMs as Dynamic Models for Articulated Robots

世界模型通过从观测数据中学习环境动态的预测表示，在基于模型的强化学习 (MBRL) 中充当动态模型。这些模型不依赖于手工制作的物理引擎或稀疏的奖励信号，而是使代理能够模拟未来状态并通过想象的部署来规划行动。PlaNet 是最早使用 RSSM 架构的模型之一，如 Fig.24 所示。Dreamer 系列通过使用变分自编码器和 RSSM 从高维观测值中学习潜在状态动态，体现了这种方法。像 TransDreamer 这样的扩展用 Transformer 取代了 RNN，以便更好地捕捉长程依赖关系，而 ContextWM 和 iVideoGPT 分别探索了在真实世界视频和基于离散标记的建模上进行预训练。这些进步增强了泛化能力、长时域预测能力以及跨任务的可迁移性。通过解耦感知和规划，世界模型降低了样本复杂性，并改善了复杂高维环境中的决策能力。最近的研究进一步证明了它们在现实世界中的适用性，验证了它们在机器人和自主系统中的潜力。

在这里插入图片描述

PlaNet

提出了一种 基于像素规划的潜在动态模型，将确定性和随机性转变与潜在超调相结合，用于多步预测。与无模型方法相比，该方法能够以更少的回合数解决复杂的连续控制任务，并在未知环境中展现出较高的采样效率。

Plan2Explore

引入了一种自监督强化学习代理，它利用基于模型的规划在探索过程中主动寻求未来的新奇事物，从而能够对未知任务进行零样本或少样本自适应。它在基于高维图像的控制任务中，无需特定任务的监督，其性能优于先前的方法，接近预言机级别的性能。

Dreamer series

Dreamer 系列在世界模型方面做了大量工作，并在第 5.2.2 章中进行了讨论。例如，DreamerV3 提出了一种通用强化学习算法，该算法通过学习世界模型来想象未来场景，并在单一配置下在 150 多个不同任务中取得了最佳性能。其鲁棒性技术实现了稳定的跨领域学习，这通过首次在 Minecraft 中实现无需人工数据或课程的钻石收集得到了证明。

Dreaming 消除了 Dreamer 的解码器，以缓解门控物体消失问题，采用无似然的 InfoMax 对比目标，结合线性动力学和数据增强技术，在 5 个机器人任务上取得了最佳性能。

DreamingV2

通过将离散潜在状态与 Dreaming 的无重建学习相融合，实现了这一目标，创建了一个混合世界模型，该模型利用复杂环境的分类状态表示和对比视觉建模，在无需重建的 3D 机械臂任务中表现出色；

DreamerPro

通过将原型表征融入 Dreamer 的世界模型，从循环状态中提取时间结构，增强了 MBRL 对视觉干扰的鲁棒性。该方法提高了 DeepMind 控制任务在复杂背景下的表现，在标准和干扰设置下均优于对比方法。

LEXA

引入了一个统一的无监督目标达成框架，将基于世界模型的想象部署与前瞻性驱动的探索相结合，以发现新的状态并完成多样化的任务。它在40个具有挑战性的机器人任务上的表现优于先前的方法，展示了跨多种环境的零样本泛化能力和可扩展性。

FOWM

提出了一个将离线世界模型预训练与在线微调相结合的框架，利用认知不确定性正则化来减轻外推误差。该框架能够利用有限的离线数据，对可见/不可见的视觉运动任务进行少样本自适应，并在模拟和现实世界的机器人控制基准测试中得到了验证。

SWIM

提出了一种用于机器人操控的可供性空间世界模型，该模型基于人类视频进行训练，并使用最少的机器人数据进行微调。该模型从人机交互中学习结构化的动作表征，能够在无需特定任务监督的情况下，快速掌握各种任务和机器人的技能（30分钟内）。

DWL

一个用于类人机器人运动的端到端强化学习框架。其世界模型实现了零样本迁移，只需一个策略即可掌握各种具有挑战性的地形（雪地、楼梯、不平坦的地面）。该方法无需针对特定环境进行调整，即可展现出良好的鲁棒性和泛化能力。

Surfer

引入了一个基于世界模型的机器人操控框架，将动作与场景预测解耦，从而增强其在多模态任务中的泛化能力。它融合了显式的世界知识建模，并在 SeaWave 基准测试中进行了评估，成功率达到 54.74%，通过对基于物理的状态转换进行建模，其性能超越了基准测试。

GAS

提出了一种基于世界模型的深度强化学习框架，专门用于手术机器人操作，该框架采用像素级视觉运动策略，并结合不确定性感知的深度估计和紧凑的三通道图像编码。在处理真实手术环境中的未知物体和干扰时，该框架的成功率高达 69%，与临床环境中的现有方法相比，展现出卓越的鲁棒性和泛化能力。

Puppeteer

提出了一种用于视觉全身人形机器人控制的分层世界模型，其中高级视觉策略为低级执行策略生成命令，两者均通过强化学习进行训练。该方法无需简化假设或奖励工程，即可在 8 个任务中为 56 自由度人形机器人实现高性能运动合成。

TWIST

提出了一个师生世界模型蒸馏框架，用于在基于视觉模型的强化学习中实现高效的模拟到现实迁移。该框架利用状态特权教师模型来监督基于图像的学生模型，加速自适应，同时通过领域随机化蒸馏弥合模拟到现实的差距，在样本效率和任务执行方面优于朴素方法。

PIVOT-R

提出了一种 用于语言引导机器人操作的基元驱动的航点感知世界模型 (WAWM)，通过异步分层执行器 (AHE) 将航点预测与动作执行解耦。该模型在 Sea Wave 基准测试中实现了 19.45% 的相对提升，同时将效率提高了 28x，且性能损失极小。

HarmonyDream

提出了一个 用于世界模型的任务协调框架，动态平衡观察和奖励建模损失，以增强MBRL的样本效率。该框架通过解决世界模型学习中的任务主导问题，在视觉机器人任务上实现了10%-69%的性能提升，并创造了新的Atari 100K基准测试记录。

SafeDreamer

将基于拉格朗日的方法与 Dreamer 框架中的世界模型规划相结合，以增强安全强化学习。该方法在 Safety-Gymnasium 任务中实现了接近零成本的性能，通过提高模型准确率和样本效率，在低维和纯视觉输入下实现了性能与安全性之间的有效平衡。

WMP

提出了一个 基于世界模型的感知框架，用于腿部运动，通过学习模拟世界模型预测中的策略，消除了对特权信息的依赖。该框架通过跨领域泛化实现了最先进的现实世界可遍历性和鲁棒性，并在模拟和物理环境中得到了验证。

RWM

提出了一种 基于神经网络的机器人世界模型，该模型具有双自回归机制，可用于长期动态预测。该框架能够通过想象的环境进行自监督训练和鲁棒的策略优化，从而解决了部分可观测性和从模拟到现实的迁移方面的挑战，且没有特定领域的偏差。

RWM-O

引入了一种离线机器人世界模型，该模型具有明确的认知不确定性估计，惩罚不可靠的转换，以增强策略稳定性和泛化能力。该方法已在真实世界数据环境中得到验证，减少了模拟与现实之间的差距，并在没有物理模拟器的情况下提高了安全性，优于传统的 MBRL 方法。

SSWM

状态空间世界模型，用于加速基于模型的强化学习 (MBRL)。该方法并行化动态模型训练并利用特权信息，实现了高达 10 倍的世界模型训练速度和 4 倍的 MBRL 整体加速，同时在具有部分可观测性的复杂四旋翼飞行任务中保持性能。

WMR

提出了一个 用于盲人类人运动的端到端世界模型重建框架，明确地重建世界状态以增强策略鲁棒性。梯度截止确保了独立的状态重建，从而能够在复杂地形上实现自适应运动，已通过跨越冰雪和可变形表面的3.2公里徒步验证。

PIN-WM

提出了一个 基于物理信息的非可抓握操作世界模型，能够通过可微分模拟，从少量样本的视觉轨迹中进行端到端的 3D 刚体动力学学习。它通过基于高斯 Splatting 的观测损失函数消除了状态估计，并通过物理感知的数字表亲弥补了 Sim2Real 的不足，实现了稳健的策略迁移。

LUMOS

引入了一种基于语言条件的模仿学习框架，利用世界模型进行潜在空间技能练习。该方法将潜在规划与事后目标重新标记和内在奖励相结合，实现了向真实机器人的零样本迁移。它在长期任务上表现出色，同时缓解了离线设置中策略引起的分布偏移。

OSVI-WM

提出了一个 基于世界模型引导轨迹生成的一次性视觉模仿学习框架。学习到的世界模型能够预测演示中的潜在状态和动作，并将其解码为可执行的物理路径点。在模拟和真实机器人平台上进行评估后，该方法实现了超过 30% 的提升。

FOCUS

引入了一个 以对象为中心的机器人操控世界模型，通过结构化的对象交互来表示场景。该框架支持以对象为中心的探索，并通过更准确的场景预测来提升操控技能。在机器人任务评估中，它展示了使用 Franka Emika 机械臂进行的高效学习和对稀疏奖励场景的适应能力。

FLIP

提出了一个 以流为中心的基于模型的语言-视觉操控规划框架，该框架集成了多模态流生成、流条件视频动态和视觉-语言表征模块。它通过图像流合成长远规划，利用交互式世界模型属性指导低层策略训练，并在多个基准测试中得到验证。

EnerVerse-AC

提出了一种 用于机器人评估的动作条件世界模型，该模型具有多级动作条件和射线图编码，可生成动态多视图观测数据。该模型既可充当数据引擎，又可充当评估器，根据人类收集的轨迹合成逼真的动作条件视频，从而实现经济高效的策略测试，无需实体机器人或复杂的模拟。

FlowDreamer

提出了一种 RGB-D 世界模型，使用明确的 3D 场景流表示进行视觉预测和规划。该模型将运动估计（U 网络）和帧合成（扩散模型）解耦，同时保持端到端训练，在语义质量和操作成功率方面，在基准测试中比基线模型高出 7-11%。

HWM

为人形机器人 引入了基于视频的轻量级世界模型，采用 Masked Transformer 和 FlowMatching 来预测基于动作条件的自我中心观测值。该框架展示了高效的参数共享策略，在保持性能的同时将模型大小缩小了 33%-53%，使其能够在资源受限的学术环境中实现实际部署。

MoDem-V2

通过基于模型的强化学习框架，实现现实世界中丰富的接触操作学习，该框架集成了演示引导和安全感知探索策略（探索中心化、代理切换、参与者-评论家集成），首次成功实现了基于视觉的 MBRL 系统在现实世界中的直接训练，而无需硬件本体。

V-JEPA 2

是一个拥有 12 亿参数的世界模型，采用联合嵌入预测架构，用于基于视频的理解、预测和零样本规划。该模型经过两阶段训练：首先，使用超过 100 万小时的视频进行无动作预训练，以获得物理直觉；然后，使用最少的机器人数据（62 小时）进行动作条件微调。V-JEPA 2 在动作识别和预测任务上展现了最佳性能，并通过视觉子目标规划实现了机器人任务的模型预测控制（在新型环境中的成功率达到 65%-80%）。该框架包含三个用于评估物理推理能力的新基准。

6.2.3 WMs as Reward models for Articulated Robots

作为奖励模型的世界模型利用其学习到的动态机制，通过衡量代理行为与模型预测的契合程度来隐式推断奖励。例如，如果轨迹具有高度可预测性（即与世界模型的预期相匹配），则会被分配更高的奖励，从而消除人工的奖励工程。

在这里插入图片描述

与 Dreamer 通过价值函数隐式替换奖励信号不同，PlaNet 使用显式学习的奖励预测器。其奖励预测器作为动态模型的一部分，负责从压缩的潜在状态预测环境奖励，通过最小化预测奖励与真实奖励之间的误差进行训练，并在在线规划阶段为潜在空间中的多步轨迹滚动提供即时奖励信号，从而取代手工设计的奖励函数。

此类方法统一了环境模拟和奖励生成，从而能够从原始观测中实现可扩展的强化学习。这种范式对于迁移学习尤其有效，正如 VIPER 的跨具体化泛化所见。

VIPER

提出 使用预训练视频预测模型作为强化学习的奖励信号。该方法在专家视频上训练自回归变换器，并利用预测概率作为奖励，从而能够在 DMC、Atari 和 RLBench 任务中实现无需特定任务奖励的专家级控制，同时支持桌面操作场景中的跨具体化泛化。

6.2.4 Technical Trends

世界模型未来有着广阔的发展前景，但在机器人领域，它可能具有以下发展潜力：

Tactile-Enhanced World Models for Dexterous Manipulation.

触觉集成世界模型的演变正在推动机器人灵巧性的突破，尤其是在多指手领域。尖端方法如今将高分辨率接触建模与视觉触觉融合相结合，利用神经网络实时预测滑动、变形和最佳抓握力。自监督触觉编码器通过自主学习材料和形状表征，无需手动标记，而图形/变换器架构则可处理动态时空触觉信号。这些创新使机器人能够以类似人类的适应能力处理新物体，从而克服了传统模拟到现实的挑战，使其能够应对精细操作任务。

Unified World Models for Cross-Hardware and CrossTask Generalization

未来的机器人世界模型将专注于 硬件无关的动态编码和任务自适应潜在空间，以实现跨不同形态（例如，单臂/双臂、腿式/轮式机器人）和任务（例如，夹持器与灵巧手操作）的泛化。关键方向包括：具有共享物理先验的模块化架构，用于可迁移的动态学习；元强化学习，用于快速适应新的硬件/任务组合；以对象为中心的表征，支持跨场景的技能复用；以及通过残差物理建模实现模拟到现实的桥梁。这些进展旨在为可扩展的机器人智能创建 “one model fits all” 的解决方案。

Hierarchical World Models for Long-Horizon Task

未来的机器人世界模型将 专注于分层规划和时间抽象，以处理复杂的多阶段任务。关键进展包括：用于动态子任务链的目标调节潜在空间；用于捕捉长期依赖关系的记忆增强型Transformer；用于可复用原语的自监督技能发现；以及用于实时计划调整的交互式人工反馈。这些创新旨在将高级推理与低级控制连接起来，从而在开放式环境中实现强大的自主性。

6.3 Challenges and Future Perspectives

High-Dimensionality and Partial Observability

自主系统基于高维传感输入运行，例如摄像头图像、激光雷达点云和雷达信号。利用这些数据对世界进行建模需要耗费大量的计算资源。此外，这些观测本质上是局部的；智能体永远无法感知环境的完整状态。这种局部可观测性引入了不确定性，因此需要鲁棒的状态估计技术，或者说，需要对可能的世界状态保持信念状态，以便为决策提供信息。

Causal Reasoning versus Correlation Learning

许多当前世界模型的一个根本性局限性在于 它们擅长学习相关性，而非因果关系。例如，一个模型可以学习刹车灯与减速之间的关联，但可能缺乏对潜在物理现象和驾驶员行为的更深入理解。这一缺陷阻碍了真正的泛化，因为它阻止了模型进行反事实推理——评估偏离训练分布的“假设”情景。要在新情况下实现稳健的性能，需要从相关模式匹配过渡到对环境的真正因果理解。

Abstract and Semantic Understanding

有效的世界模型必须超越低级信号预测，并在更高层次的语义和抽象理解上运作。一个强大的模型不仅应该预测未来的像素或激光雷达点，还应该 能够推理抽象概念。一个主要的未解决的问题在于 如何将细粒度的物理预测与抽象概念的推理相融合，例如交通法规、行人意图和物体可供性（例如，椅子是用来坐的）。整合这些不同层次的抽象对于智能和情境感知行为至关重要。

Systematic Evaluation and Benchmarking

对世界模型进行客观评估和比较是一项重大的研究挑战。诸如未来预测的均方误差等传统指标通常不足，因为它们 可能与下游任务的性能不相关。能够生成视觉上更清晰预测的模型并不一定能够实现更安全或更高效的控制策略。我们需要开发新的评估框架，其中包含评估模型在规划中的效用、在安全关键场景下的鲁棒性以及捕捉环境中因果相关方面的能力的指标。

Memory Architecture and Long-Term Dependencies

由于预测误差的叠加以及现实世界的随机性，准确的长期预测极其困难。一个关键的挑战是设计能够在较长时间尺度上保留和检索相关信息的记忆架构，例如记住几分钟前看到的“前方道路施工”标志。开发高效的记忆系统，利用 Transformer 或状态空间模型 (SSM) 等架构来管理这些长期依赖关系，仍然是一个活跃且充满争议的研究领域。

Human Interaction and Predictability

对于在以人为中心的环境中运行的智能体来说，世界模型的作用不仅仅是进行环境预测，还必须促进智能体的行为清晰易懂、可预测且符合人类的社交规范。技术上最优但看起来不稳定或违反直觉的行为可能会使其他驾驶员或行人等人类同行感到困惑，从而可能导致不安全的互动。这种社交智能层是功能性世界模型中一个微妙但关键的组成部分。

Interpretability and Verifiability

基于深度学习的世界模型通常是不透明的“黑匣子”，因此很难辨别其预测背后的原理。对于像自动驾驶这样的安全关键应用，审核和理解模型内部决策过程的能力是不可或缺的，尤其是在事故后分析中。此外，一项艰巨的理论和工程挑战是对这些模型进行形式化验证，即从数学上证明它们在广阔的可能输入空间中满足关键的安全属性（例如，永远不会产生危险障碍）。

Compositional Generalization and Abstraction

虽然模拟与现实之间的差距是一个众所周知的泛化问题，但更深层次的挑战是组合泛化。人类可以学习“杯子”和“桌子”等离散概念，并立即将其推广到新的组合，例如“桌子上的杯子”。相比之下，当前的模型通常需要大量接触特定的组合示例。理想的世界模型应该学习实体、实体关系及其物理属性的解耦、抽象的表示。这将使其能够通过组合已知概念来理解和预测新场景，而不是依赖于整个场景的端到端模式匹配。

Data Curation and Bias

一个世界模型的性能从根本上取决于其训练数据的质量和构成。模型不可避免地会继承甚至放大数据集中存在的偏差。例如，一个主要基于某个地理区域数据训练的模型，在具有不同道路惯例或环境条件的另一个地理区域可能表现不佳。数据管理的一个关键方面是解决罕见但对安全至关重要的事件的“长尾”效应。系统地识别、收集并确保模型能够有效地从这些不常见场景中学习，对于构建稳健可靠的系统至关重要。

7. Conclusion

本文全面考察了物理模拟器和世界模型在推进具身人工智能方面所发挥的关键作用，揭示了向真正智能机器人系统迈进的变革性范式转变。通过分析，引入了一个用于评估机器人自主性的五级分类框架（IR-L0 至 IR-L4），对主流仿真平台进行了广泛的比较研究，并探索了世界模型从简单的循环架构向复杂的基础级系统的演变。调查展示了 Isaac Gym、Genesis 和新兴的 Newton 平台等现代模拟器如何通过 GPU 加速的物理和逼真的渲染彻底改变了机器人学习，而先进的世界模型则为自动驾驶和关节机器人技术带来了前所未有的能力。

这些技术不仅缩小了模拟与现实之间的差距，还为样本高效学习、长期规划以及跨不同环境的稳健泛化开辟了新的可能性。随着人们朝着实现IR-L4完全自主系统的目标迈进，物理模拟器与世界模型的融合代表了构建下一代具身智能的基础，有望将机器人技术从特定任务的自动化转变为能够无缝融入人类社会的通用智能。

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合