单卡30分钟，凭空造出272㎡世界！华为“世界模型”炸场来了

近日，华为公司联合上海交通大学与华中科技大学的研究团队，共同推出了一款名为的世界模型。该模型在3D室内场景生成领域取得了显著突破，能够构建面积高达1800平方米（对应19x39个区块）的超大规模虚拟室内环境，并实现了高效的生成速度——在单张NVIDIA A100 GPU上，仅需30分钟即可生成约272平方米的场景。更重要的是，WorldGrow生成的场景不仅具备照片级的真实感和外观细节，其内部的几

具身新纪元

643人浏览 · 2025-10-28 16:54:56

具身新纪元 · 2025-10-28 16:54:56 发布

近日，华为公司联合上海交通大学与华中科技大学的研究团队，共同推出了一款名为WorldGrow的世界模型。该模型在3D室内场景生成领域取得了显著突破，能够构建面积高达1800平方米（对应19x39个区块）的超大规模虚拟室内环境，并实现了高效的生成速度——在单张NVIDIA A100 GPU上，仅需30分钟即可生成约272平方米的场景。

更重要的是，WorldGrow生成的场景不仅具备照片级的真实感和外观细节，其内部的几何拓扑结构也是完全连贯的。这意味着虚拟智能体（Virtual Agent）可以在这些复杂的空间布局中进行自主路径规划与导航，而不会出现穿墙或迷路等问题。

这一成果的核心在于其“按需扩展、无缝拼接”的生成范式，有效解决了传统大规模3D场景生成技术面临的多项挑战。

点击阅读原文，获取更多资源

传统技术的困境与挑战

在WorldGrow之前，构建大规模、高保真的3D室内场景通常会遇到以下瓶颈：

几何与纹理不连续：部分方法依赖2D图像生成模型，再通过技术手段“提升”至3D。这种方式常导致视角变换后出现几何扭曲、物体悬浮、纹理断裂等问题。
扩展性受限：许多先进的生成模型能够高质量地生成单个房间，但在尝试将多个房间组合成一个完整的套房或公寓时，其性能会急剧下降，难以维持场景的整体一致性。
缺乏空间布局逻辑：一些方法在生成时忽略了功能分区的合理性，可能导致家具与房间功能不匹配的荒谬布局，例如将冰箱放置在卧室，或将床摆放在厨房。

WorldGrow的核心技术框架

为解决上述难题，WorldGrow采用了包含三个核心部分的技术方案，将场景生成任务分解为一系列精确且协同的步骤。

点击阅读原文，获取更多资源

第一步：精准的数据预处理

高质量的数据是模型成功的基础。研究团队首先从大规模3D室内场景数据集3D-FRONT中筛选优质样本。接着，利用Blender软件对完整的场景进行系统性切片：

区块切分 (Block Partitioning)：通过**布尔交集（Boolean Intersection）**运算，将连续的3D场景精确分割成标准化的区块。
内容密度保证：利用**占用率检测（Occupancy Detection）算法，确保每个切分出的区块都包含足够的内容，过滤掉过于空旷或无意义的空间。具体标准为，区块的可见内容（Visible Content）**必须占据至少95%的体积。

通过这一流程，团队构建了两个并行的数据集：

粗粒度数据集 (Coarse Dataset)：分辨率较低，主要用于捕捉场景的宏观布局，如房间连接、走廊朝向和墙体结构。
细粒度数据集 (Fine Dataset)：分辨率较高，保留了丰富的家具、材质和纹理细节。

第二步：基于3D块补全的无缝拼接机制

WorldGrow的创新之处在于将场景的“扩展”问题转化为一个“补全”（Inpainting）任务。当需要生成一个新的区块时，模型会基于相邻的、已生成的区块上下文进行预测和填充。

具体实现上，该机制包含两个协同工作的生成器：

结构生成器 (Structure Generator)：负责预测新区块的3D结构框架，确保与已有部分的墙体、门洞等对齐。
潜变量生成器 (Latent Generator)：基于已确定的结构，重建该区块的**结构化潜变量（Structured Latent, SLAT）**特征，以保证新生成区块在灯光、材质和整体风格上与周边环境保持统一。

在输入阶段，模型会融合三种信息：带噪点的潜变量、标识补全区域的二进制掩码，以及已掩码的已知区域特征。这种上下文感知的生成方式，从根本上消除了拼接处常见的边缘断裂和纹理错位问题。

第三步：由粗到精（Coarse-to-Fine）的生成策略

这一策略将复杂的生成任务分解，实现了宏观规划与微观细节的解耦。

宏观布局生成：首先，粗粒度结构模型在低分辨率下运行，快速确定整个场景的总体规划，例如窗户的统一朝向、走廊的连贯性等。这一步相当于搭建了整个“大平层”的骨架。
细节填充：随后，对生成的粗粒度结构进行三线性插值上采样（Trilinear Interpolation Upsampling），将其分辨率提升至与细粒度区块匹配的级别。最后，调用细粒度生成器，在已有的结构框架内填充高分辨率的家具、软装和纹理细节，完成场景的精装修。

实验结果与性能评估

实验结果充分证明了WorldGrow的先进性。

生成质量：在3D-FRONT数据集上的定量评估显示，WorldGrow在多个关键指标上达到了**SOTA（State-of-the-Art）**水平。

几何重建指标：MMD (Maximum Mean Discrepancy) 和 COV (Coverage) 两项指标均取得最优值。
生成质量核心指标：FID (Fréchet Inception Distance) 分数低至7.52（越低越好），显著优于SynCity、BlockFusion等当前主流方法。

扩展性与稳定性：即便在生成7×7区块（约133㎡）的超大场景时，WorldGrow依然能保持稳定的边缘拼接质量和全局一致性。

在这里插入图片描述

生成效率：在单张NVIDIA A100显卡上，WorldGrow生成10×10区块（约272㎡）的室内场景仅需30分钟，其速度约为同类技术的6倍，展现出卓越的工程应用潜力。

点击阅读原文，获取更多资源

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合