数据集介绍

InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集,论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而,现有数据集通常存在以下不足:数据规模或多样性有限、布局经过"净化"处理导致小物体缺失,以及严重的物体碰撞问题。

为解决上述问题,InternScenes 整合了三种不同的场景源——真实世界扫描场景、程序化生成场景和设计师创建场景,构建了约 40,000 个多样化场景。数据集中的三个子集各有侧重:InternScenes-Real2Sim 通过对真实扫描场景的物体替换创建可模拟副本,保留了真实布局中的大量小物体;InternScenes-Gen 基于程序化生成规则实现零碰撞的物体布局;InternScenes-Synthetic 则提供丰富的设计师创建场景,扩大场景多样性与空间覆盖范围。数据集特别保留了场景中的大量小物体,实现了平均每个区域41.5个物体的真实复杂布局。

  • 任务时序长度:不适用(该数据集为静态场景与物体集合,非时序动作数据)
  • 动作可执行性:不适用(该数据集为场景与物体资源库,非机器人动作轨迹)
  • 时序连续性:不适用(该数据集为离散场景与物体资产)
  • 语言控制:不适用(该数据集为视觉-空间场景数据)

注:InternScenes 是场景数据集,为具身智能提供仿真环境基础,而非机器人操作轨迹数据。

主要特点

  • 三大场景源融合:整合真实扫描、程序化生成和设计师创建三类场景,兼具真实布局、零碰撞和大规模多样性三重优势。其中真实扫描场景来自 EmbodiedScan,程序化生成基于 Infinigen indoors,设计师场景整合自 3D-Front 等多个资产库。
  • 真实且复杂的布局:特别保留场景中的大量小物体(如桌面上的小物件、橱柜内的物品等),避免了常规数据集因"清理"布局而丢失细节的问题。平均每个区域包含 41.5 个物体,为当前公开数据集中最高。
  • 高度可模拟性:通过为真实扫描场景创建真实到模拟(Real-to-Sim)的可模拟副本,将约 20% 的物体替换为来自 PartNet-Mobility 的交互式物体(如橱柜、微波炉、烤箱、冰箱等),并通过物理仿真解决物体碰撞问题,确保场景可直接集成至 Isaac SimMuJoCo 等仿真环境。
  • 支持AIGC与具身智能双领域:配套提供场景布局生成和点目标导航两大基准应用。实验表明,复杂逼真的布局对现有最先进方法提出了全新挑战,同时 InternScenes 展示出通过大规模场景数据提升模型泛化能力的巨大潜力。
  • 超大规模资产库:整合超过 80 万个 CAD 模型(约800k),来自 ObjaverseHSSD3D-FUTUREGRScenes-100PartNet-Mobility 等多个高质量开源3D资产库,为场景构建提供丰富的物体素材。

数据来源

  • 发布方:上海人工智能实验室
  • 数据形式:合成数据(仿真/生成),分为三个子集:
  • InternScenes-Real2Sim:基于 EmbodiedScan 真实扫描场景,通过物体检索与替换创建可模拟副本
  • InternScenes-Gen:基于 Infinigen indoors 程序化生成,通过规则确保零碰撞布局
  • InternScenes-Synthetic:整合 3D-Front 等设计师创建场景,提供丰富的场景类型
  • 基础资产库:ObjaverseHSSD3D-FUTUREGRScenes-100PartNet-Mobility
  • 仿真引擎支持:Isaac SimMuJoCo

规模

  • 场景数量:40,000 个多样化室内场景
  • 3D物体总数:1,960,000 个(约196万)
  • 物体类别:288
  • 场景类型:15 种常见室内类型
  • 可交互物体占比:20%,覆盖 16 种交互类型
  • 数据体量:约 186 GB

应用场景

InternScenes 通过两大基准应用展示其价值,并为更广泛的具身智能与AIGC任务提供支撑:

场景布局生成(Scene Layout Generation

提供全量版本(包含所有物体)和简化版本(移除小物体)两种配置。实验表明,即使在大规模数据训练下,当前最先进方法在全量版本上表现仍不理想,揭示了复杂场景生成任务的新挑战,呼唤新的模型范式。

点目标导航(Point-Goal Navigation

利用场景的可模拟属性构建导航基准。复杂、杂乱的布局对现有导航策略构成显著挑战。更重要的是,基于多样化场景资产可生成更多的导航片段,实验证明大规模场景数据能有效提升导航策略的泛化能力。

其他适用任务

  • 3D场景重建与理解(物体检测、语义/实例分割)
  • 具身导航与探索策略研究
  • 交互式仿真与机器人操作(利用可交互物体)
  • 室内场景生成与编辑

官方网址

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐