AgiBot World
·

数据集介绍
AgiBot World 2026 数据集延续了 AgiBot World 开创的高质量数据标准,基于海量真实场景构建,系统性地覆盖了具身智能的核心研究方向,旨在赋能下一代具身智能体的落地应用。
该数据集的所有数据100% 采集自真实环境,涵盖商业空间、家庭及其他通用场景。数据采集基于 精灵 G2(AgiBot G2) 机器人平台,采用自由采集模式,为开发者提供结构清晰、标注精准的高质量数据。同时,通过数字孪生技术在仿真环境中1:1 重建场景并同步采集数据,仿真数据也将一并开源。
- 任务时序长度:支持长程任务,单条轨迹包含完整的任务序列,时长通常为 60–150 秒,远长于简单的“拾取-放置”动作。
- 动作可执行性:基于真机平台(精灵 G2) 在真实物理环境中执行任务时采集的力控轨迹。数据包含力反馈与接触信息,使得动作不仅记录了运动路径,更包含了对物理交互的真实表达,支持柔顺、精细操作的学习。
- 时序连续性:数据保留了完整的操作过程,并特别纳入了“错误恢复”轨迹,记录了机器人在执行出错后的调整与恢复过程。这为训练具有自主纠错能力的鲁棒性模型提供了关键数据。
- 语言控制:数据集提供了多层次的文本标注:包含高层指令(任务目标)、段落文本(任务描述)及步骤文本(动作序列分解)。这些标注共同构建了从抽象意图到具体动作的语言-动作逻辑框架。
主要特点
- 完全真实环境:数据100% 采集自真实世界(商业空间、家居等),而非仿真环境。采用“自由采集模式”,数据采集员可灵活设计步骤,全面覆盖物体种类、初始位置、操作顺序等多维度泛化需求。
- 拟人化灵活采集:基于可灵活移动的底盘、头部、腰部及升降俯仰机构,实现了高效、自然的操作数据构建,使采集的运动模式更接近真实人类作业习惯,具备高迁移价值。
- 力控与物理交互:引入力控采集,数据不仅仅是运动轨迹,同时包含与物体接触时的力反馈信息。这使得数据能够支持训练需要精细感知接触力的任务(如搅拌、熨烫、抓取易碎品)。
- 错误恢复轨迹:数据集中特别包含了任务执行失败后的恢复过程记录。这解决了大多数数据集只包含“完美成功”轨迹的问题,为训练能够自主检测并纠正错误的鲁棒性模型提供支持。
- 系统化标注体系:提供从高层指令、段落描述到步骤拆解的多层次语言标注;并进一步细化为原子技能(如抓取、放置)和2D边界框标注,方便研究者按不同粒度使用数据。
数据来源
- 采集平台:基于 精灵 G2(AgiBot G2) 工业级交互式具身作业机器人平台。
- 场景环境:100% 真实场景,涵盖商业空间、家庭家居等多类通用操作环境。
- 数据形式:包含真实机器人操作数据,以及通过数字孪生技术1:1重建场景获得的仿真同步数据(一并开源)。
规模
- 总演示轨迹:超过 100 万条真实机器人操作演示轨迹。
- 数据体量:原始数据超过 10 TB。
- 任务与物体:涵盖抓取、推拉、搅拌、熨烫等多样动作类型,涉及超过 3000 种不同的操作物体。
- 机器人数量:超过 100 台机器人参与数据采集。
应用场景
数据集覆盖广泛的真实世界物理操作任务,尤其适合需要精细力控与长程规划的场景:
- 家庭服务:如整理冰箱、归置食品、熨烫衣物等复杂家务。
- 商业餐饮:如铲取食物(爆米花)、搅拌、分拣餐具等。
- 工业操作:涉及接触与力反馈的精密装配、物料取放等。
- 通用操作研究:为抓取、推拉、旋转、以及上述动作组成的复杂长程任务提供基础训练数据。
官方网站
https://agibot-world.com/
更多推荐

所有评论(0)