机器人学习新纪元:Open X-Embodiment 统一数据集与RT-X模型深度解析

【免费下载链接】open_x_embodiment 【免费下载链接】open_x_embodiment 项目地址: https://gitcode.com/gh_mirrors/op/open_x_embodiment

Open X-Embodiment 是一个致力于将所有开源机器人数据统一格式的项目,为下游应用提供便捷的数据消费方式。RT-X 模型作为该项目的核心成果,通过统一数据集训练,实现了跨机器人平台的通用操作能力,开启了机器人学习的新篇章。

🌟 什么是 Open X-Embodiment?

Open X-Embodiment 项目旨在解决机器人学习领域数据碎片化的问题,将来自不同研究机构、不同机器人平台的开源数据标准化为统一格式。这种标准化不仅简化了数据获取流程,还为跨数据集的模型训练提供了可能。项目的首个成果是发表在《Open X-Embodiment: Robotic Learning Datasets and RT-X Models》中的研究,该研究展示了统一数据集如何赋能机器人通用智能。

Open X-Embodiment 机器人操作示例 图:Open X-Embodiment 数据集包含的多种机器人操作场景,展示了不同机器人在各种环境中执行任务的能力

📊 数据集结构与访问方式

统一的数据格式

Open X-Embodiment 采用 RLDS (Reinforcement Learning Datasets Schema) 作为标准数据格式,将每个数据集表示为一系列 episode。这种结构化设计使得不同来源的数据能够无缝集成,为模型训练提供一致的输入。

快速上手:数据集 Colab 教程

项目提供了一个 自包含的 Colab 笔记本,演示如何可视化各个数据集的 episode,以及如何创建用于训练和推理的批量数据。通过这个教程,即使是新手也能快速掌握数据的使用方法。

数据集列表与元数据

完整的数据集列表及其元数据可在 数据集电子表格 中查看。该表格不仅包含数据集的基本信息,还提供了每个数据集的引用方式,方便研究人员在论文中正确引用。

🤖 RT-1-X 模型详解

模型输入:视觉与语言的结合

RT-1-X 模型的输入包括两部分:

  • RGB 图像:来自机器人工作空间摄像头的实时图像,每 333 毫秒更新一次,提供环境状态信息。
  • 任务字符串:纯文本描述的任务指令,告诉模型需要执行的具体操作。

值得注意的是,当前模型暂不支持手腕摄像头、手部摄像头图像或深度信息,仅依赖工作空间摄像头的 RGB 图像。

动作空间:七维控制变量

RT-1-X 模型的动作空间包含七个维度:

  • 末端执行器的 x, y, z 坐标
  • 末端执行器的 roll, pitch, yaw 姿态
  • 夹爪的开合程度

每个变量可以表示为绝对值、相对变化量或速度,为机器人提供灵活的控制方式。

模型推理与 checkpoint

项目提供了 RT-1-X 模型的 TensorFlow 和 JAX 两种 checkpoint:

🛠️ 快速开始:使用 Open X-Embodiment

1. 克隆仓库

git clone https://gitcode.com/gh_mirrors/op/open_x_embodiment

2. 解决数据集未找到问题

如果在运行 tfds.load({dataset_name}) 时遇到 DatasetNotFoundError,可手动下载数据集:

gsutil -m cp -r gs://gdm-robotics-open-x-embodiment/{dataset_name} ~/tensorflow_datasets/

下载完成后,即可使用 tfds.load({dataset_name}) 正常访问数据。

3. 探索模型代码

模型的核心实现位于 models/ 目录下,包括:

📚 引用与许可证

如果您在研究中使用了 Open X-Embodiment 数据集或 RT-X 模型,请参考 官方引用指南。项目的软件部分采用 Apache 2.0 许可证,其他材料采用 CC-BY 4.0 许可证。

Open X-Embodiment 项目通过统一数据格式和先进模型架构,为机器人学习领域提供了强大的工具和资源。无论是研究人员还是开发者,都能从中受益,推动机器人通用智能的发展。现在就加入这个开源项目,探索机器人学习的无限可能吧!

【免费下载链接】open_x_embodiment 【免费下载链接】open_x_embodiment 项目地址: https://gitcode.com/gh_mirrors/op/open_x_embodiment

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐