理解世界还是预测未来？清华大学世界模型全面综述

提出新的世界模型分类系统：将世界模型分为两类，一类是构建外部世界的隐含表示以理解世界运行机制，另一类是预测外部世界的未来状态以支持决策制定。

xml.nudt

1503人浏览 · 2025-10-31 22:48:26

xml.nudt · 2025-10-31 22:48:26 发布

作者：Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, Zefang Zong, Jie Feng, Yuan Yuan, Hongyuan Su, Nian Li, Nicholas Sukiennik, Fengli Xu, Yong Li
单位：清华大学
论文标题：Understanding World or Predicting Future? A Comprehensive Survey of World Models
出版信息：ACM Comput. Surv., Vol. 58, No. 3, Article 57
论文链接：https://dl.acm.org/doi/full/10.1145/3746449
项目主页：https://github.com/tsinghua-fib-lab/World-Model

主要贡献

提出新的世界模型分类系统：将世界模型分为两类，一类是构建外部世界的隐含表示以理解世界运行机制，另一类是预测外部世界的未来状态以支持决策制定。
分析关键应用领域：基于这种分类，分析了世界模型在自动驾驶、机器人和社交仿真等关键应用领域中的技术进展，探讨了这些领域如何强调世界模型的不同方面。
探讨未来研究方向：着重强调了世界模型未来可能的研究方向和趋势，以适应更广泛的实际应用需求。

介绍

研究背景与动机

通用人工智能：科学界一直致力于开发能够复制世界基本动态的统一模型，以实现AGI。2024年，多模态大语言模型（LLMs）和视频生成模型（如Sora）的出现，引发了关于世界模型的讨论。
世界模型的定义与争议：世界模型的定义存在争议，主要分为两种观点：理解世界和预测未来。早期工作侧重于抽象外部世界以理解其机制，而一些研究则认为世界模型还应具备预测未来状态以指导决策的能力。

研究目的与意义

系统性回顾：鉴于世界模型在人工智能领域的重要性，本文旨在提供一个系统的回顾，涵盖世界模型的最新进展、应用和未来方向。
应用领域的广泛性：世界模型在自动驾驶、机器人和社交仿真等领域有着广泛的应用，每个领域对于理解和预测能力的要求都各不相同，因此需要对这些领域中的世界模型应用进行详细分析。

研究方法与分类

分类体系：本文提出了一个新的世界模型分类系统，围绕两个主要功能构建：构建外部世界的隐含表示以理解世界运行机制，以及预测外部世界的未来状态以支持决策制定。
技术进展与应用：基于这种分类，本文将详细分析世界模型在自动驾驶、机器人和社交仿真等关键领域的技术进展和应用情况。

背景与分类

世界模型的背景

早期工作：世界模型的概念在人工智能领域有着悠久的历史，可以追溯到20世纪60年代Marvin Minsky的框架表示法（frame representation），其目的是系统地捕捉关于世界的结构化知识。2018年，Ha和Schmidhuber通过提出基于神经网络的隐式模型来学习潜在表示，显著复兴并普及了“世界模型”这一术语。
心理理论基础：这一研究方向与心理学中的“心理模型”理论相一致，该理论认为人类通过将外部世界抽象为简化元素和关系来感知外部世界。这种抽象的哲学根源在框架和世界模型中都有所体现，即我们对世界的描述通常涉及构建一个抽象表示，而无需详细描绘。
基于模型的强化学习：在这种概念框架下，论文引入了一个受人类认知系统启发的智能体模型。该模型从真实环境接收反馈，将其转换为一系列输入以训练模型。模型擅长模拟在外部环境中采取特定行动后的潜在结果，本质上是创建了一个潜在未来世界演化的心理模拟，基于这些状态的预测结果做出决策。这种方法与基于模型的强化学习（MBRL）方法密切相关，两者都涉及模型生成外部世界的内部表示，这些表示有助于解决现实世界中的各种决策任务。
LeCun的系统架构：2022年，Yann LeCun在其关于自主机器智能发展的文章中提出了一个系统架构，该架构类似于人类大脑的结构。该架构包括一个感知模块，用于处理感官数据，以及一个评估这些信息的认知模块，这实际上构成了世界模型。LeCun提出的联合嵌入预测架构（JEPA）允许大脑评估动作并确定对现实世界应用最合适的响应。LeCun的框架因其纳入了双系统概念而引人注目，这类似于“快”和“慢”思维。系统1涉及直觉、本能反应：在没有世界模型的情况下快速做出决策，例如本能地躲避迎面而来的人。相比之下，系统2采用深思熟虑、经过计算的推理，考虑世界未来状态。它超越了即时感官输入，模拟潜在的未来场景，例如预测房间内接下来十分钟的事件并相应地调整行动。这种远见需要构建一个世界模型，以便根据预期的动态和环境演变有效地指导基于预测的决策。
大语言模型中的世界知识：从2023年开始的最近一波关于大语言模型的研究中，许多研究表明这些模型捕获了潜在的世界知识。换句话说，这些模型捕获了直观知识，包括空间和时间理解，使它们能够对现实世界场景做出预测。此外，LLM能够通过认知地图对世界进行建模，最近的研究揭示了这些模型中嵌入的大脑样结构。这些模型甚至能够基于先前的经验学习预测未来事件，从而增强了它们的实用性和在现实世界任务中的适用性。

世界模型的分类

两类世界模型：基于上述背景，论文将世界模型分为两类：构建外部世界隐含表示以理解世界运行机制的模型，以及预测外部世界未来状态以支持决策制定的模型。
隐含表示构建：第一类模型侧重于开发能够学习和内化世界知识以支持后续决策的模型。这些模型通过将外部现实转换为代表这些元素的潜在变量来实现对环境的隐含理解，从而为预测未来状态的演变提供基础。
未来状态预测：第二类模型强调增强在物理世界中从视觉感知中预测和模拟未来状态的能力。这些模型通常基于生成学习（如扩散建模）和模型架构（如Transformer），能够生成高质量的视频帧，模拟现实世界的动态变化，而不仅仅是表示静态世界。

世界模型的定义与目标

定义：论文认为，世界模型的本质目标是理解世界的动态，并能够确定性地（或在一定程度上保证）计算下一个状态。这使得模型能够外推更长期的演变，并支持下游的决策制定和规划。
目标：基于这一定义，本文将从以下三个角度对世界模型的最新进展进行全面审查：
- 外部世界的隐含表示：探讨世界模型如何通过将环境变化表示为潜在变量来实现更明智的决策制定，最终目标是预测未来状态的演变。
- 外部世界的未来预测：首先探索使用视觉视频数据模拟外部世界的生成模型。这些工作强调生成的视频与物理世界未来状态的真实性。随着最近研究的重点转向开发真正的交互式物理世界，本文将进一步研究从视觉到空间表示以及从视频到具身环境的转变。
- 世界模型的应用：世界模型在自动驾驶、机器人和社交仿真等各个领域有着广泛的应用。本文将探讨在这些领域中整合世界模型如何推进理论研究和实际应用，强调其在现实世界中的变革潜力。

外部世界的隐含表示

世界模型在决策中的应用

在决策任务中，理解环境是制定优化策略的基础。世界模型在决策中的作用主要是提供对环境的全面理解，使得智能体能够在不影响真实环境的情况下进行假设性行动，从而降低试错成本。

基于模型的强化学习（MBRL）

世界模型学习：MBRL中的世界模型主要由状态转移动态和奖励函数组成。学习准确的世界模型通常采用均方预测误差来优化一步转移：
- 确定性模型：通过最小化真实状态和预测状态之间的均方误差来训练模型。
- 概率性模型：通过最小化转移模型之间的KL散度来考虑不确定性。
表示学习的重要性：在高维环境中，有效的表示学习对于训练有效的世界模型至关重要。早期工作通过自编码器和潜在状态管道来重建图像，而最近的工作则结合了视觉编码器和潜在动态来掌握基于像素的控制任务。
策略生成：有了优化的世界模型后，可以通过模型预测控制（MPC）或蒙特卡洛树搜索（MCTS）等方法生成策略。MPC通过优化动作序列来最大化预期奖励，而MCTS则通过维护一个搜索树来评估状态的价值。

语言模型作为世界模型的背景

随着语言模型的快速发展，尤其是LLM和MLLM，它们在许多相关应用中得到了发展。语言作为一种通用的表示形式，使得基于语言的世界模型能够在多种决策任务中发挥作用。

世界模型与语言模型的结合

直接行动生成：LLM能够直接生成决策任务中的行动，基于构建的世界模型。例如，将预训练的文本到视频模型转移到特定的机器人控制领域，成功地将LLM的输出作为机器人操作的文本指令。
模块化使用：尽管直接将LLM的输出作为行动是应用和部署中的一种直接方式，但这种方案的决策质量严重依赖于LLM自身的推理能力。为了提高决策质量，可以将基于LLM的世界模型作为模块与其他基于模型的验证器或有效的规划算法集成。
- 提取显式世界模型：通过提示GPT-4生成并迭代细化PDDL领域描述，然后将其与现成的规划器配对，以实现良好的规划性能，减少人工干预。
- 具身智能体的模拟：在VirtualHome等具身环境的模拟器中部署具身智能体，将具身知识注入LLM中，以更好地规划和完成特定目标。
- 多模态世界模型学习：学习多模态世界模型以预测未来文本和图像表示，并从想象的模型回放中学习行动。策略学习阶段完全基于之前生成的多模态表示。
- 贝叶斯自适应马尔可夫决策过程：将LLM的推理视为MDP中的学习和规划，LLM在MDP的actor-critic更新中以in-context的方式运行，从而显著提高了在多个复杂推理任务和环境中的性能。

模型学习的世界知识

世界知识的分类：
- 在大规模文本和书籍上预训练后，大型语言模型获得了关于现实世界的广泛知识和与日常生活相关的常识。这些知识对于模型在现实世界任务中的泛化和有效执行至关重要。
- 从对象和空间范围的角度来看，大型语言模型中的世界知识可以分为三部分：全球物理世界的知识、局部物理世界的知识和人类社会的知识。
全球物理世界的知识：
- 空间和时间知识：研究表明，大型语言模型真正获得了关于世界的空间和时间知识，而不仅仅是收集表面统计数据。在LLama2中发现了不同的“空间神经元”和“时间神经元”，表明模型能够学习跨多个尺度的线性空间和时间表示。
- 地理空间知识：通过有效的提示，从文本地址中提取关于地理空间的直觉现实世界知识，并成功提高了模型在各种下游地理空间预测任务中的性能。
- 城市知识的局限性：尽管大型语言模型能够捕获某些现实世界知识，但其质量仍受到质疑。例如，大型语言模型中嵌入的城市知识通常较为粗糙且不准确。为了提高特定城市的城市知识，提出了有效的框架来改善大型语言模型中特定城市的地理空间知识。
局部物理世界的知识：
- 认知地图：认知地图是指人类为了导航和理解环境而形成的心理表示，包括空间关系和地标。研究表明，大型语言模型中也存在类似的结构，这些结构被用来增强人工模型在学习和理解物理世界中的效率和性能。
- 局部环境学习：通过在局部探索路径上组装观察结果，形成物理空间的全局表示，使机器人能够跟踪并接近特定目标。进一步的研究将原始3D点云处理为具有语义标签的结构化3D场景表示，增强了机器人和自动驾驶中复杂任务的空间推理能力。
人类社会的知识：
- 心理理论：心理理论最初被提出用于解释个体如何推断周围人的心理状态。最近的研究广泛探索了大型语言模型如何发展和展示这种社会世界模型。研究评估了大型语言模型在各种心理理论任务中的表现，以确定其人类行为是否反映了对社会规则和隐含知识的真正理解。
- 心理理论的局限性：尽管GPT-4在这些任务中表现出潜力，但也发现了其局限性，特别是在检测社交失误方面。为了克服这些局限性，研究人员提出了创新方法，以增强大型语言模型在复杂现实世界应用中的心理理论能力。例如，通过构建知识图谱来帮助大型语言模型显式地使用心理理论，通过认知链进行推理。此外，还开发了两阶段提示框架，以提高大型语言模型在心理理论任务中的表现。

物理世界的未来预测

世界模型作为视频生成

视频生成模型的兴起：视频生成模型作为世界模型的一个重要分支，近年来取得了显著进展。这些模型通过处理过去的观测数据和潜在的动作，生成未来状态的视觉模拟，从而预测物理世界的未来动态。
Sora模型：
- 模型概述：Sora是一个大规模的视频生成模型，能够根据文本、图像和视频等多种输入模态生成长达一分钟的高质量、时间连贯的视频序列。Sora利用编码器-解码器框架和Transformer架构，处理多模态输入并生成视觉上连贯的模拟。
- 模型能力：Sora的核心能力在于生成符合现实世界物理规律的视频，例如光在表面上的反射或蜡烛的熔化。这些特性表明Sora有潜力作为世界模拟器，基于对初始条件的理解和模拟，预测世界未来的状态。
- 模型局限性：尽管Sora在视频生成方面表现出色，但在理解和模拟外部世界方面存在一些局限性。例如，Sora在因果推理方面的能力有限，只能基于观察到的初始状态被动地生成视频序列，而不能主动干预或预测动作变化如何改变事件的进程。此外，Sora在一致地再现正确的物理定律方面也存在不足，例如在不同力作用下物体的行为、流体动力学或光与阴影的准确表现。
其他视频世界模型：Sora的成功激发了大量后续研究，这些研究在视频长度、多模态学习、交互性、时间一致性和多样化环境模拟等方面进行了改进。例如，一些模型扩展了视频长度以实现长形式视频模拟，整合了更多模态（如图像和动作），增强了动作转换的平滑性，提高了物理定律的准确性，并保持了时间一致性。还有些模型专注于特定场景的模拟，如自然环境、游戏和自动驾驶。
视频世界模型的能力：
- 长期预测能力：一个强大的视频世界模型应该能够进行长期预测，遵循环境的动态规则，并在较长时间内保持生成的视频序列与现实世界的时间进展一致。尽管Sora能够生成长达一分钟的高质量视频，但与现实世界环境中的复杂长期动态相比仍有差距。最近的研究通过扩展视频长度来捕捉更长期的依赖关系，提高时间一致性。
- 多模态整合：除了语言引导的视频生成，视频世界模型越来越多地整合其他模态，如图像和动作，以增强模拟的真实性。这种多模态整合使模型能够更丰富地捕捉现实世界的复杂性，提高生成场景的准确性和多样性。
- 交互性：视频世界模型的另一个关键能力是其潜在的可控性和交互性。理想的模型不仅应生成逼真的模拟，还应允许与环境进行交互。这种交互性涉及模拟不同动作的后果并提供反馈，使模型能够用于需要动态决策的应用。最近的研究专注于增强模拟的可控性，允许用户更主动地探索场景。
- 多样化环境：视频世界模型正在适应各种特定场景的模拟，包括自然环境、自动驾驶和游戏。这些模型从基本的视频生成发展到复制现实世界的动态，并支持广泛的应用。

世界模型作为具身环境

具身环境的发展：具身环境的世界模型对于模拟和预测智能体如何与外部世界互动以及适应变化至关重要。最初，生成模型主要关注模拟视觉世界，使用视频数据来捕捉环境的动态变化。最近，研究重点转向创建完全交互式和具身的模拟。这些模型不仅表示视觉元素，还整合了空间和物理交互，更准确地反映现实世界的动态。

具身环境的分类：世界模型作为具身环境可以分为三类：室内环境、室外环境和动态环境。
- 室内环境：室内环境提供了受控、结构化的场景，智能体可以在其中执行详细的、特定于任务的动作，如物体操作、导航和实时与用户交互。早期的室内环境工作（如AI2-THOR和Matterport 3D）主要提供视觉信息。后续工作扩展了环境的数据模态，如iGibson引入了激光雷达观测作为额外的信号反馈，AVLEN进一步补充了音频信号。还有一些工作（如GRUtopia）在环境中引入了社交维度，要求智能体在与物体和NPC（非玩家角色）互动的同时导航，需要更高级的互动建模。
- 室外环境：与室内环境相比，创建室外环境面临更大的挑战，因为它们规模更大、变化更多。一些现有工作关注城市环境，如MetaUrban，智能体在大规模城市环境中导航，面临动态变化的交通、不同的建筑结构和与其他实体的社交互动等挑战。最近，UrbanWorld利用3D生成模型显著增强了室外环境的范围，创建了复杂、可定制的城市空间，允许更多样化的城市场景。还有些虚拟开放世界平台（如MineDOJO）扩展了这些挑战，通过模拟程序生成的沙盒式环境，推动智能体参与资源收集、建设和生存等任务，需要持续的探索和适应性学习。
- 动态环境：动态环境是从传统静态模拟器的重大演变，利用生成模型创建灵活的、实时的模拟。与需要手动调整的预定义环境不同，这些模型允许动态创建各种场景，为智能体提供更丰富、更多样的训练体验，提高其适应性和泛化能力。代表作品是UniSim，它基于输入条件（如空间运动、文本命令和相机参数）动态生成机器人操作视频序列。Pandora将动态环境生成从UniSim中的机器人动作扩展到包括人类和机器人动作在内的更广泛领域。AVID在UniSim的基础上，通过调整预训练扩散模型中的噪声预测来生成动作驱动的视觉序列。EVA引入了一个额外的视觉-语言模型，用于具身视频预测，产生更一致的具身视频预测。Streetscapes使用自回归视频扩散模型模拟城市环境，智能体必须应对动态挑战，如变化的天气和交通。这些环境提供了连贯但灵活的城市设置，使智能体暴露于类似现实世界的变异性。动态环境的核心趋势是使用生成世界模型提供可扩展的、可适应的模拟，显著减少了环境设置所需的手动工作量，使智能体能够快速地在多种场景中进行训练。此外，以第一人称训练的方式密切模仿现实世界的决策制定，增强了智能体适应不断变化情况的能力。
具身环境的未来趋势：从静态、当前的室内和室外具身环境发展到通过生成模型预测动态、未来世界的趋势正在兴起。这些方法为具身智能体提供了第一人称、基于动作的未来世界预测，使智能体能够更好地适应未见条件。这些方法有望为具身智能体提供灵活、可扩展的环境，增强其在现实世界中的泛化能力。

应用

自动驾驶

自动驾驶中的世界模型：自动驾驶领域是世界模型应用的关键领域之一。现代自动驾驶系统通常分为四个关键部分：感知（perception）、预测（prediction）、规划（planning）和控制（control）。世界模型在感知和预测阶段发挥重要作用，帮助车辆理解当前驾驶场景并预测未来状态，从而支持下游的规划和决策任务。
学习隐含表示：
- 感知模块：自动驾驶车辆通常使用摄像头、雷达和激光雷达等传感器来感知现实世界，获取图像、视频数据和点云数据。早期的感知模块主要基于卷积神经网络（CNN），如YOLOP和MultiNet，用于目标检测和语义分割。近年来，基于Transformer架构的模型（如BEVFormer）在多相机图像的鸟瞰图表示学习中取得了显著成果，提高了感知的准确性和效率。
- 预测模块：预测模块通常在几何空间中运行，利用历史场景信息预测交通参与者的未来行为。近年来，基于Transformer的模型（如Wayformer和MTR）在轨迹预测任务中表现出色，能够更准确地预测车辆和行人的未来运动。

世界模拟器：
- 基于规则的模拟器：在多模态大模型和基于视觉的生成模型出现之前，交通场景模拟主要在几何空间中进行，依赖于感知模块收集的数据或手动构建的场景。这些模拟器通常以几何轨迹的形式表示未来状态，需要进一步建模和渲染才能生成适合车辆感知的输出。
- 基于生成模型的模拟器：随着扩散模型和Transformer架构的发展，基于视频生成的世界模拟器逐渐兴起。这些模型能够直接生成与现实世界相似的相机感知数据，如GAIA-1和DriveDreamer系列模型。这些模型不仅提高了模拟的逼真度，还通过文本-图像对齐方法（如CLIP）实现了对场景生成的直接控制，提高了模拟的灵活性和效率。

机器人

机器人中的世界模型：世界模型在机器人领域中发挥着重要作用，帮助机器人感知、预测和在复杂环境中行动。近年来，神经架构和学习算法的进步使得机器人能够构建隐含表示，捕捉外部世界的关键特征，并通过预测模型支持前瞻性和适应性行为。
学习隐含表示：
- 视觉和3D表示：机器人任务通常需要对环境进行详细的视觉和3D表示。卷积神经网络（CNN）和视觉Transformer（ViT）被广泛用于整合物体的视觉特征，使机器人能够识别关键物体。例如，RoboCraft通过将视觉观察转换为粒子，并通过图神经网络捕捉底层系统的结构。
- 语言表示：随着LLM的发展，机器人可以通过自然语言指令描述任务意图，并通过LLM获得文本表示。例如，BC-Z利用语言表示作为任务表示，提高了机器人的多任务性能。
预测未来环境状态：
- 生成视频模型：机器人任务的顺序性和长期性要求准确预测未来环境状态。近年来，基于扩散模型和Transformer架构的生成视频模型被用于从视觉数据中隐式学习环境动态。例如，UniPi将动作预测明确地作为视频生成问题，通过约束扩散模型生成未来场景。
- 从模拟到现实：尽管深度强化学习在机器人领域取得了显著成果，但其样本效率低下限制了实际应用。世界模型可以通过学习现实世界动态的通用表示来弥合模拟与现实之间的差距。例如，DayDreamer展示了通用世界模型的能力，使机器人能够在现实世界环境中直接学习运动，显著减少了对广泛模拟的依赖。

社交仿真

社交仿真中的世界模型：社交仿真领域旨在构建能够模拟人类行为和社会互动的虚拟环境。传统的基于规则的智能体构建方法或强化学习方法存在行为过于简单或缺乏可解释性的问题。然而，LLM的出现为构建更逼真的社交仿真提供了强大的工具。
构建社交仿真：
- AI Town：AI Town是一个由25个生成性智能体组成的世界模型，形成了一个沙盒式社交环境。在这个虚拟社区中，智能体展现出逼真的个体行为，并在群体层面展现出类似现实世界的新兴社交行为。
- S3：S3是一个基于LLM的社交网络模拟系统，能够模拟真实世界公共事件中的信息传播动态，成功捕捉了社交网络的动态变化。
智能体对环境的理解：
- 信念和记忆：LLM智能体通过与外部环境的互动存储观察结果，形成对环境的隐含表示和基本认知。例如，Agent-Pro将与外部环境的互动记忆转化为“信念”，并基于这些信念做出决策，更新行为策略。
- 心理理论：LLM智能体通过模拟人类的情感、态度和决策模式，能够再现多种情境中的复杂社交现象。例如，GovSim探索了在由LLM智能体组成的社区中，是否能够出现旨在可持续资源开发的合作行为。

开放问题与未来方向

物理规则和反事实模拟

问题描述：世界模型的一个关键目标是捕捉环境的因果结构，尤其是底层的物理规则，以便能够进行超出数据分布的反事实推理。这对于处理罕见的、关键的任务（如自动驾驶中的极端情况）和缩小模拟与现实之间的差距至关重要。
现状与挑战：尽管基于Transformer和扩散模型的视频生成器（如Sora）能够生成逼真的视频序列，但研究发现这些模型在物理定律的准确性上存在持续问题，例如重力、流体或热力学的不准确模拟。
未来方向：混合方法，即明确嵌入物理规则的方法，正在成为有前景的替代方案。例如，Genesis通过将快速、逼真的渲染与基于第一性原理的通用物理核心相结合，允许基于语言的条件数据生成。未来的研究需要进一步探索如何将物理规则更好地整合到世界模型中，以提高模型在未见反事实场景中的泛化能力。

丰富社会维度

问题描述：仅仅模拟物理元素是不够的，因为人类行为和社会互动在许多重要场景中起着关键作用。例如，城市居民的行为对于构建城市环境的世界模型至关重要。
现状与挑战：尽管LLM提供了模拟逼真人类行为的独特机会，但设计能够模拟真实且全面的人类行为和社会互动的自主智能体仍然是一个开放性问题。此外，评估生成的人类行为的逼真度主要依赖于主观的人类评估，这难以大规模扩展。
未来方向：未来的研究方向可能包括探索人类行为模式和认知过程的理论，以指导智能体工作流程的设计，从而增强LLM在人类行为模拟方面的能力。此外，开发可靠且可扩展的评估方案，以丰富世界模型的社会维度，也是一个重要的研究方向。

桥接模拟与现实的具身智能

问题描述：世界模型一直被视为实现具身智能的关键步骤，它能够创建包含环境元素的全面模拟，并模拟它们之间的现实关系。这样的环境可以促进具身智能体通过与模拟环境的互动来学习，减少对监督数据的需求。
现状与挑战：将训练好的具身智能从模拟环境转移到物理世界是一个长期存在的问题。收集更细粒度的感官数据也是实现这一目标的关键步骤，这可以通过具身智能体的接口来实现。
未来方向：未来的研究方向可能包括创建自我强化循环，以利用生成性世界模型和具身智能之间的协同作用。此外，提高多模态、多任务和3D能力的生成性AI模型，以及从模拟到现实的转移，也是重要的研究方向。

模拟效率

问题描述：确保世界模型的高模拟效率对于许多应用至关重要。例如，每秒帧数是学习复杂无人机操作AI的关键指标。然而，大多数大型生成模型的流行Transformer架构由于其自回归性质，只能一次生成一个标记，这对高速模拟提出了巨大挑战。
现状与挑战：为了加速大型生成模型的推理，已经提出了几种策略，如结合大型和小型生成模型以及蒸馏大型模型。更全面的解决方案包括构建能够最优调度LLM请求的模拟平台。
未来方向：未来的研究方向可能包括探索小型深度学习模型与大型生成AI模型之间的协同作用。此外，从底层硬件到编程平台和AI模型的整体改进也是实现显著提升的关键。

伦理和安全问题

数据隐私：
- 问题描述：使用大型生成AI构建世界模型的趋势引发了对隐私风险的重大关注，主要是由于训练数据的庞大和不透明性。
- 现状与挑战：大量研究致力于评估使用大型生成AI（如LLM）推断私人信息的风险，这在视频生成模型的背景下可能特别敏感。
- 未来方向：为了符合隐私法规（如GDPR），提高生成AI生命周期的透明度至关重要，帮助公众了解数据是如何被收集、存储和使用的。
模拟危险场景：
- 问题描述：生成AI的极其智能能力使得保护其使用成为首要任务。先前对LLM的研究发现，它们可能会被误导以生成不安全的内容。
- 现状与挑战：世界模型的不安全使用风险可能更大。恶意用户可能会利用这种技术来模拟有害场景，降低计划非法和不道德活动的成本。
- 未来方向：未来的研究方向是保护世界模型的使用，防止其被用于模拟危险场景。
责任归属：
- 问题描述：生成超逼真的文本、图像和视频的能力已经导致了严重的社会问题，如虚假信息和虚假信息的传播。
- 现状与挑战：随着生成性AI的发展，检测AI生成内容变得更加困难，尤其是在世界模型能够生成一致的多维输出的情况下。
- 未来方向：技术如水印可能有助于提高世界模型使用的责任归属。此外，还需要更多的研究关注和法律解决方案，以提高世界模型使用的责任归属。

基准测试

问题描述：对世界模型进行基准测试是必要的，但也是具有挑战性的。由于社区追求不同的目标（学习内部表示与预测未来世界）、采用不同的技术方法（如基于LLM的智能体和视频扩散）以及涉及广泛的应用领域（自动驾驶、机器人、社交模拟），因此没有单一的典型任务或指标。
现状与挑战：尽管如此，一些最近的努力表明，精心设计的测试平台可以揭示当前模型成为可靠世界模拟器的具体差距。例如，WorldSimBench结合了人类偏好的视频判断和三个具身设置中的动作一致性；WorldScore将“世界生成”分解为可控性、视觉质量和动态性，允许对3D、4D和视频场景进行一对一的比较。
未来方向：未来的工作应该专注于构建更多样化和现实的基准，以严格测试泛化能力。此外，标准化评估协议将是提高可比性和稳健性评估的关键。

结论

本文全面综述了世界模型的两大核心功能：构建外部世界的隐含表示以理解世界运行机制，以及预测外部世界的未来状态以支持决策制定。
系统地回顾了世界模型在自动驾驶、机器人和社交仿真等关键领域的应用进展，分析了这些领域如何侧重于世界模型的不同方面。
此外，本文还探讨了世界模型在学习内部表示、预测未来状态、作为视频生成模型以及具身环境模型方面的最新技术进展。
尽管世界模型在理解世界和预测未来方面取得了显著进展，但仍面临诸多挑战，如物理规则的准确模拟、社会维度的丰富性、从模拟到现实的转移、模拟效率以及伦理和安全问题等。
未来的研究方向应聚焦于如何整合物理规则、丰富社会维度、发展具身智能、提高模拟效率，并解决伦理和安全问题，以推动世界模型在更广泛的实际应用中发挥更大作用。

全球具身智能开发者社区

更多推荐

ksubdomain源码深度剖析：gopacket库在网络嗅探中的高效应用

ksubdomain作为一款无状态子域名爆破工具，其核心优势在于通过底层网络数据包处理实现高效的DNS查询与响应捕获。本文将深入解析项目如何利用gopacket库构建高性能网络嗅探模块，揭示其在子域名爆破场景下的技术实现细节。## gopacket库在ksubdomain中的技术定位gopacket作为Go语言生态中功能强大的网络数据包处理库，为ksubdomain提供了完整的网络层操作能

全球具身智能开发者社区

Nacos2.x核心源码深度剖析：从通信到业务

通过对 Nacos 2.x 核心源码的剖析，我们可以看到其高性能与高可用的实现细节。Nacos 2.x 的架构演进，其核心在于通信协议的升级与内部模块的解耦。本文将从源码层面，深入剖析其 gRPC 通信层的建立、配置中心（Config）的发布与监听机制，以及注册中心（Naming）的服务注册与发现流程，揭示其高性能与高可用背后的代码实现。在源码层面，config 和 naming 模块的职责划分非

全球具身智能开发者社区

阿里首个世界模型：快乐…生蚝

比如在文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等方向，模型都可以作为一个实时演化的世界引擎，与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接，根据人的位置、动作、语言和环境变化，动态生成对应的视觉内容、事件反馈或交互结果。你可以推门而入，可以亲手改写，可以离开又回来，也可以带朋友进去。正如团队所强调的，过去几年生成式AI完成了“文本→图像→视频”的跃迁，但