由AI教母李飞飞联合创立的World Lab最新研究成果来了——名为RTFM(A Real-Time Frame Model)的生成式世界模型。该模型旨在解决当前世界模型对算力资源的巨大需求问题,通过创新的架构设计,在单张NVIDIA H100 GPU上即可实现实时交互、3D一致性与无限持久性的虚拟世界。


李飞飞通过其个人社交媒体宣布,其参与创立的初创公司World Lab正式推出全新模型RTFM。这标志着“世界模型”这一前沿AI领域迎来了新的突破,尤其是在运行效率和可及性方面。

RTFM的设计遵循三大核心原则,旨在为未来世界模型的发展提供一个高效且可扩展的范本:

  1. 效率 (Efficiency): 模型推理过程经过高度优化,仅需单张H100 GPU即可达到交互级帧率,实现实时运行。
  2. 可扩展性 (Scalability): 架构设计简洁,能够随着数据和算力的增长而持续提升性能,遵循了AI领域“算力扩展定律”的核心思想。
  3. 持久性 (Persistence): 模型构建的世界是永久存在的。用户可以无限时地与场景交互,即使视角大幅度切换或长时间离开后返回,场景内容依然保持原样,不会消失或重置。

当前挑战:世界模型的算力鸿沟

生成式世界模型(Generative World Models)具备实时重建、模拟一个持久且物理精确的世界的潜力,有望在机器人、自动驾驶、媒体娱乐等行业引发变革。

然而,随着视频生成技术的进步,一个严峻的现实浮出水面:世界模型对计算资源的需求将远超现有的大语言模型。研究团队指出,若直接应用现有视频架构,生成一路60帧/秒的4K交互视频流,每秒需要处理的token数量超过10万个——这相当于在一秒内生成整本《哈利·波特与魔法石》的文本量。若要维持长达一小时的交互体验,上下文token总量将突破1亿,这在当前的计算基础设施下是不现实的。

面对这一挑战,李飞飞团队的目标非常明确:设计一个能“预见未来”的模型。即在当前主流硬件(单张H100)上,以最高保真度预览未来世界模型的能力,实现交互帧率与永不消逝的虚拟世界。

RTFM的技术路径:作为“可学习渲染器”

传统计算机图形学依赖显式的3D表征(如三角网格、高斯泼溅)来构建世界,再通过复杂的渲染管线生成2D图像。这种方法依赖大量人工设计的算法,扩展性有限。

RTFM则采用了截然不同的路径,将自身定位为一个**“可学习的渲染器”(learned renderer)**。

其核心架构是一个自回归扩散变换器(autoregressive diffusion transformer),通过对海量视频数据进行端到端学习,从而掌握从已有图像帧预测新视角图像的能力,全程无需构建任何显式的3D几何模型。

其工作流程如下:

  1. 编码为隐式世界表征: 输入的图像帧被转换为神经网络中的激活状态,即KV缓存(KV cache)。这些激活以隐式、非结构化的方式包含了对整个3D世界的理解。
  2. 注意力机制读取信息: 当需要生成一个新视角的图像时,模型通过注意力机制从KV缓存中“读取”相关信息。
  3. 生成新视图: 根据读取的信息和给定的新视角姿态,模型渲染出与之匹配且保持三维一致性的新图像。

这种端到端学习的方式,使RTFM能够自动掌握反射、阴影、光照等复杂的光学现象,模糊了“重建”(在已知视角间插值)与“生成”(创造从未见过的场景内容)的界限。

“姿态帧”与“上下文切换”:实现无限持久性

自回归模型普遍面临一个难题:随着交互时间的增加,需要处理的上下文(历史帧)不断增长,导致计算成本线性上升,最终限制了模型的“记忆”时长。

RTFM通过一个巧妙的设计解决了这个问题:将带有姿态(Pose)的帧作为空间记忆。

每一帧不再仅仅是一张2D图片,而是被赋予了其在三维空间中的精确位置和方向(即姿态)。这为模型的记忆引入了空间结构,相当于一个弱三维先验。

基于此,团队开发了**“上下文切换”(context juggling)**技术。在生成新帧时,模型不再关注所有历史帧,而是根据新帧的姿态,从空间记忆中检索物理位置上最接近的少数几帧来构建一个临时的、局部的上下文。

这意味着,无论用户探索的世界有多大、交互时间有多长,模型生成每一帧的计算成本始终保持在一个可控的低水平。这从根本上实现了不受限制的持久性,让虚拟世界真正做到“永不消逝”。

开放体验

目前,RTFM模型已作为预览版向公众开放。您可以通过官方渠道进行体验。

参考链接:

  1. https://x.com/drfeifei/status/1978840835341914164
  2. https://x.com/theworldlabs/status/1978839175320186988
  3. https://www.worldlabs.ai/blog/rtfm
Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐