Open X-Embodiment

兵子哥666

5人浏览 · 2026-05-13 16:26:20

兵子哥666 · 2026-05-13 16:26:20 发布

Open X-Embodiment

数据集介绍

Open X-Embodiment (2023) 数据集由 Google DeepMind 联合全球 21 家顶尖学术机构共同打造，是迄今为止规模最大的开源真实机器人操作数据集。该数据集旨在打破传统机器人学习中“一个任务、一个模型、一个机器人”的局限，通过整合来自 22 种不同机器人平台的海量数据，探索训练跨形态（Cross-Embodiment）“通用”策略（X-robot Policy）的可能性。基于该数据集训练的 RT-X 系列模型展现了优异的正向迁移能力，能够高效适应新机器人、新任务和新环境。

任务时序长度：以短程技能任务为主（单条轨迹通常较短，约 78% 任务持续时间在 5 秒以内），同时也涵盖部分长程任务序列。

动作可执行性：基于统一连续动作向量进行低级控制，数据包含机器人执行具体物理动作时的连续性参数，支持多种形态机器人的动作复现。

时序连续性：数据以“episode”形式记录连续轨迹，完整保留了机器人从初始状态到任务完成（或终止）的完整操作过程。

语言控制：部分任务涉及以视觉或语言指令为条件的控制，模型可根据不同粒度的指令（如高层任务目标或底层动作描述）执行相应操作。

主要特点

跨形态数据融合：整合了来自 22 种不同机器人形态的数据（包括单臂、双臂、四足机器人等），统一为 RLDS（Robotics Learning Dataset Specification）格式，解决了多源数据兼容性问题。

超大规模与多样性：总计超过 100 万条真实轨迹，覆盖 311 种场景、527 类技能以及 160,266 项任务实例，是当前开源领域规模最大的真实机器人数据集。

混合来源：数据集同时包含真实物理环境采集数据与仿真环境生成数据，兼顾真实性与泛化性。

正向迁移能力：基于该数据集训练的 RT-1-X 模型，在 5 种不同机器人平台上的平均表现比各平台专用模型提升约 50%，验证了跨机器人知识迁移的有效性。

零样本泛化：RT-2-X 模型展现了在未见过的任务上的涌现能力，例如进行精确的空间推理，其表现比基础模型提升 3 倍。

数据来源

采集平台：来自 22 种不同的机器人形态，包括 Franka、xArm、Google Robot、四足机器人等。

机构合作：由 Google DeepMind 主导，联合 21 家学术机构（共计 33 家实验室，如斯坦福大学、上海交通大学、英伟达、卡内基梅隆大学等）共同贡献。

数据形式：整合了 60 个现有开源数据集，包含真实物理环境数据与仿真环境数据，所有数据统一转换为 RLDS 标准格式。

规模

总演示轨迹：超过 100 万条真实机器人操作轨迹。

任务实例：覆盖 160,266 项具体任务实例。

技能类别：涵盖 527 类不同的机器人操作技能。

场景数量：包含 311 种不同的操作环境场景。

应用场景

数据集覆盖广泛的多机器人、多任务学习场景，尤其适合跨形态泛化与通用操作策略的研究：

通用机器人策略训练：为训练能够适配不同机器人形态（从单臂到四足）的单一通用策略提供基础数据，显著减少针对新机器人平台的重复训练成本。

跨具身迁移研究：支持研究知识从一个机器人平台向另一个平台的迁移效果，验证“在 A 机器人上学习的技能能否在 B 机器人上复用”。

多任务操作学习：涵盖抓取、推拉、旋转、装配等数百种技能，以及部分长程复合任务，适用于需要同时掌握大量操作技能的具身智能体训练。

仿真到真实迁移：同时提供仿真与真实数据，为 Sim-to-Real 研究提供标准化的对照基准。

官方网站

项目主页：https://robotics-transformer-x.github.io

数据集下载：https://huggingface.co/agibot-world

原始论文：https://arxiv.org/abs/2310.08864 (ICRA 2024)

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

Marp for VS Code Web扩展使用指南：在浏览器中编辑幻灯片的方法

Marp for VS Code是一款强大的扩展工具，能让你在VS Code中使用Marp Markdown语法创建精美的幻灯片。通过Web扩展，你可以直接在浏览器中体验这一便捷功能，无需复杂配置即可快速上手幻灯片制作。## 快速开始：安装与基础设置要开始使用Marp for VS Code Web扩展，首先需要确保你的VS Code已安装该扩展。你可以通过扩展市场搜索"Marp"找到并安

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合