单卡30分钟,凭空造出272㎡世界!华为“世界模型”炸场来了
近日,华为公司联合上海交通大学与华中科技大学的研究团队,共同推出了一款名为的世界模型。该模型在3D室内场景生成领域取得了显著突破,能够构建面积高达1800平方米(对应19x39个区块)的超大规模虚拟室内环境,并实现了高效的生成速度——在单张NVIDIA A100 GPU上,仅需30分钟即可生成约272平方米的场景。更重要的是,WorldGrow生成的场景不仅具备照片级的真实感和外观细节,其内部的几
近日,华为公司联合上海交通大学与华中科技大学的研究团队,共同推出了一款名为WorldGrow的世界模型。该模型在3D室内场景生成领域取得了显著突破,能够构建面积高达1800平方米(对应19x39个区块)的超大规模虚拟室内环境,并实现了高效的生成速度——在单张NVIDIA A100 GPU上,仅需30分钟即可生成约272平方米的场景。
更重要的是,WorldGrow生成的场景不仅具备照片级的真实感和外观细节,其内部的几何拓扑结构也是完全连贯的。这意味着虚拟智能体(Virtual Agent)可以在这些复杂的空间布局中进行自主路径规划与导航,而不会出现穿墙或迷路等问题。

这一成果的核心在于其“按需扩展、无缝拼接”的生成范式,有效解决了传统大规模3D场景生成技术面临的多项挑战。
传统技术的困境与挑战

在WorldGrow之前,构建大规模、高保真的3D室内场景通常会遇到以下瓶颈:
- 几何与纹理不连续:部分方法依赖2D图像生成模型,再通过技术手段“提升”至3D。这种方式常导致视角变换后出现几何扭曲、物体悬浮、纹理断裂等问题。
- 扩展性受限:许多先进的生成模型能够高质量地生成单个房间,但在尝试将多个房间组合成一个完整的套房或公寓时,其性能会急剧下降,难以维持场景的整体一致性。
- 缺乏空间布局逻辑:一些方法在生成时忽略了功能分区的合理性,可能导致家具与房间功能不匹配的荒谬布局,例如将冰箱放置在卧室,或将床摆放在厨房。
WorldGrow的核心技术框架
为解决上述难题,WorldGrow采用了包含三个核心部分的技术方案,将场景生成任务分解为一系列精确且协同的步骤。
点击阅读原文,获取更多资源
第一步:精准的数据预处理
高质量的数据是模型成功的基础。研究团队首先从大规模3D室内场景数据集3D-FRONT中筛选优质样本。接着,利用Blender软件对完整的场景进行系统性切片:
- 区块切分 (Block Partitioning):通过**布尔交集(Boolean Intersection)**运算,将连续的3D场景精确分割成标准化的区块。
- 内容密度保证:利用**占用率检测(Occupancy Detection)算法,确保每个切分出的区块都包含足够的内容,过滤掉过于空旷或无意义的空间。具体标准为,区块的可见内容(Visible Content)**必须占据至少95%的体积。
通过这一流程,团队构建了两个并行的数据集:
- 粗粒度数据集 (Coarse Dataset):分辨率较低,主要用于捕捉场景的宏观布局,如房间连接、走廊朝向和墙体结构。
- 细粒度数据集 (Fine Dataset):分辨率较高,保留了丰富的家具、材质和纹理细节。
第二步:基于3D块补全的无缝拼接机制
WorldGrow的创新之处在于将场景的“扩展”问题转化为一个“补全”(Inpainting)任务。当需要生成一个新的区块时,模型会基于相邻的、已生成的区块上下文进行预测和填充。
具体实现上,该机制包含两个协同工作的生成器:
- 结构生成器 (Structure Generator):负责预测新区块的3D结构框架,确保与已有部分的墙体、门洞等对齐。
- 潜变量生成器 (Latent Generator):基于已确定的结构,重建该区块的**结构化潜变量(Structured Latent, SLAT)**特征,以保证新生成区块在灯光、材质和整体风格上与周边环境保持统一。
在输入阶段,模型会融合三种信息:带噪点的潜变量、标识补全区域的二进制掩码,以及已掩码的已知区域特征。这种上下文感知的生成方式,从根本上消除了拼接处常见的边缘断裂和纹理错位问题。
第三步:由粗到精(Coarse-to-Fine)的生成策略
这一策略将复杂的生成任务分解,实现了宏观规划与微观细节的解耦。
- 宏观布局生成:首先,粗粒度结构模型在低分辨率下运行,快速确定整个场景的总体规划,例如窗户的统一朝向、走廊的连贯性等。这一步相当于搭建了整个“大平层”的骨架。
- 细节填充:随后,对生成的粗粒度结构进行三线性插值上采样(Trilinear Interpolation Upsampling),将其分辨率提升至与细粒度区块匹配的级别。最后,调用细粒度生成器,在已有的结构框架内填充高分辨率的家具、软装和纹理细节,完成场景的精装修。
实验结果与性能评估
实验结果充分证明了WorldGrow的先进性。

生成质量:在3D-FRONT数据集上的定量评估显示,WorldGrow在多个关键指标上达到了**SOTA(State-of-the-Art)**水平。
- 几何重建指标:MMD (Maximum Mean Discrepancy) 和 COV (Coverage) 两项指标均取得最优值。
- 生成质量核心指标:FID (Fréchet Inception Distance) 分数低至7.52(越低越好),显著优于SynCity、BlockFusion等当前主流方法。

扩展性与稳定性:即便在生成7×7区块(约133㎡)的超大场景时,WorldGrow依然能保持稳定的边缘拼接质量和全局一致性。

生成效率:在单张NVIDIA A100显卡上,WorldGrow生成10×10区块(约272㎡)的室内场景仅需30分钟,其速度约为同类技术的6倍,展现出卓越的工程应用潜力。
更多推荐

所有评论(0)