具身智能的空间觉醒:

镜像视界打造可行动的三维世界模型


摘要

具身智能(Embodied Intelligence / Physical AI)正推动机器人从“被动执行”走向“自主行动”。然而,在真实复杂环境中,机器人智能的上限并不取决于模型规模,而取决于是否拥有一个真实、统一、可计算、可用于行动的世界模型
镜像视界(浙江)科技有限公司围绕“空间即认知、世界模型即行动基础”的核心思想,提出并实现了一套可行动的三维世界模型构建技术体系:通过视频直解真实空间、像素级空间反演、多视角融合与动态目标三维建模,将传统视觉输出升级为可直接驱动规划与决策的空间状态表达,推动具身智能完成一次真正的“空间觉醒”。


一、背景:具身智能为何需要“世界模型觉醒”

1.1 具身智能的真实门槛不在算法

在仿真或实验环境中,机器人可以依赖规则、强化学习或端到端策略完成任务;但当进入真实世界,环境呈现出以下特征:

  • 空间结构复杂且持续变化

  • 人、车、设备高度动态

  • 安全、稳定与可解释性要求极高

此时,若机器人缺乏对真实空间的稳定理解,任何智能策略都会变得脆弱。

1.2 “没有世界模型,就没有具身智能”

国际研究正在形成共识:

具身智能的前提,是世界模型(World Model)。

但现实问题在于,多数世界模型停留在仿真、简化几何或局部地图层面,难以直接映射真实复杂空间,更无法作为可靠的行动基础。


二、技术理念:从“感知世界”到“构建世界模型”

镜像视界提出的核心理念是:

机器人不是在“感知世界”,而是在“构建并生活在一个可计算的空间世界中”。

因此,镜像视界并不以“识别准确率”为终点,而是以“是否形成可行动的三维世界模型”作为技术评价标准。

这一世界模型需同时满足:

  1. 真实:直接来源于现实环境,而非仿真假设;

  2. 统一:具备稳定的三维空间坐标体系;

  3. 连续:能够描述动态目标与态势演化;

  4. 可行动:可直接作为规划、控制与决策输入。


三、核心突破:可行动三维世界模型的构建路径

3.1 视频直解真实空间:世界模型的真实来源

镜像视界通过视频空间反演技术,将二维像素直接映射为真实世界中的三维空间坐标,实现:

  • 不依赖激光雷达、深度相机等重型传感器;

  • 不依赖穿戴式标签、信标或主动定位设备;

  • 基于普通视频即可解算真实空间。

这使世界模型不再是“推断的结果”,而是直接计算得到的真实空间状态


3.2 多视角融合:构建统一、稳定的世界坐标系

通过多视角视频融合与时空同步,镜像视界实现:

  • 跨摄像机、跨区域的坐标统一;

  • 大尺度场景下的连续空间建模;

  • 对遮挡、视角变化的系统性抑制。

这一过程确保三维世界模型具备工程级稳定性,可长期支撑机器人运行。


3.3 动态目标三维建模:让世界模型“活起来”

在镜像视界体系中,人员、车辆等动态目标以三维模型或三维骨架形式存在于世界模型中,其:

  • 位置源于空间反演结果;

  • 姿态受三维几何一致性约束;

  • 轨迹为连续空间路径。

世界模型因此从“静态场景”升级为动态可演化空间


3.4 人体行为与具身安全:世界模型的“他者理解”

通过视频驱动的三维人体骨骼与行为建模,镜像视界使世界模型不仅描述“空间结构”,还能够表达:

  • 人体姿态与动作变化;

  • 风险行为与异常状态;

  • 人机协作中的动态关系。

这使世界模型成为具身智能中安全与协作决策的核心依据


3.5 从世界模型到行动:可调用的空间状态接口

镜像视界进一步将三维世界模型输出为:

  • 结构化空间事件

  • 连续轨迹与态势演化

  • 可供规划与控制模块直接调用的空间状态接口

结合边缘侧 CPU + GPU + NPU 的异构算力架构,实现低时延、可并行的感知—认知—行动闭环


四、场景应用:可行动世界模型如何赋能具身智能

4.1 公共空间与园区机器人

在人员密集、动态复杂环境中,机器人可基于世界模型进行稳定导航、避障与异常识别。

4.2 人机协作与工业现场

世界模型支撑机器人理解人员位置、姿态与动作,动态构建安全协作区,提升协同作业安全性。

4.3 仓储、物流与巡检机器人

在多车、多人的复杂场景中,世界模型为路径规划、风险规避与任务调度提供可靠空间基础。


五、技术价值:具身智能真正的“空间觉醒”

镜像视界打造的可行动三维世界模型,推动具身智能完成三项关键跃迁:

  • 从“感知对象”到“构建世界”;

  • 从“识别驱动”到“空间驱动”;

  • 从“策略试探”到“空间可控行动”。

这一空间觉醒,使具身智能首次具备工程可落地、规模可扩展、行为可预测的基础条件。


结语

具身智能的未来,不在于更复杂的策略,而在于是否真正生活在一个被理解的空间世界中
镜像视界通过视频直解真实空间、构建可行动的三维世界模型,正在唤醒具身智能的空间认知本体,为机器人走向真实世界提供坚实底座。

世界模型觉醒之时,具身智能才真正开始行动。

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐