RoboBrain 2.0: See Better. Think Harder. Do Smarter.

一、项目简介

RoboBrain 2.0 是目前最强大的开源具身智能模型。相比其前身 RoboBrain 1.0,在多智能体任务规划、空间推理和闭环执行方面取得了显著进步。该项目由 BAAI 团队开发,相关的技术报告即将发布。

二、项目背景与动机

随着具身人工智能的发展,对能够高效处理复杂任务的智能模型的需求日益增长。RoboBrain 1.0 已经在机器人操作领域展示了其能力,但为了进一步提升模型的性能和适用范围,BAAI 团队开发了 RoboBrain 2.0。

三、主要特点

RoboBrain 2.0 支持以下关键功能:

  1. 交互推理与长期规划:能够处理复杂的任务指令,进行长期规划,并根据反馈进行调整。

  2. 空间感知:从复杂指令中精确预测点和边界框。

  3. 时间感知:对未来轨迹进行估计。

  4. 场景推理:通过实时构建和更新结构化内存来理解场景。

四、系统架构

RoboBrain 2.0 的架构支持多图像、长视频和高分辨率视觉输入,以及复杂的任务指令和结构化场景图。视觉输入通过视觉编码器和 MLP 投影器进行处理,文本输入则被标记化为统一的标记流。所有输入馈入大型语言模型(LLM)解码器,执行长链推理并输出结构化计划、空间关系以及相对和绝对坐标。

五、模型版本

RoboBrain 2.0 提供了两种参数规模的模型版本:

  • RoboBrain 2.0-7B:包含 70 亿参数。

  • RoboBrain 2.0-32B:包含 320 亿参数。

六、性能表现

RoboBrain 2.0 在多个基准测试中取得了优异的成绩。RoboBrain 2.0-32B 在 BLINK-Spatial、CV-Bench、EmbSpatial 和 RefSpatial 四个关键具身智能基准测试中达到了最先进的性能,超过了包括 o4-mini、Qwen2.5-VL 等开源模型,以及 Gemini 2.5 Pro 和 Claude Sonnet 4 等闭源模型。

七、技术框架

RoboBrain 2.0 使用了由 BAAI 框架研发团队开发的训练框架 FlagScale,以及 BAAI FlagEval 团队开发的评估框架 FlagEvalMM。

八、重要事件

  • 2025 年 6 月 7 日:强调了 FlagScale 和 FlagEvalMM 框架。

  • 2025 年 6 月 6 日:在 Hugging Face 上发布了 RoboBrain 2.0-7B 模型检查点。

  • 2025 年 6 月 6 日:宣布 RoboBrain 2.0 的发布。

  • 2025 年 4 月 11 日:RoboBrain 1.0 被选为 CVPR 2025 官方具身 AI 趋势评论。

  • 2025 年 2 月 27 日:RoboBrain 1.0 被 CVPR 2025 接受。

九、后续规划

项目团队计划发布 RoboBrain 2.0-7B 的推理示例、训练代码,以及 RoboBrain 2.0-32B 的模型检查点。

十、核心代码示例

以下是设置和简单推理的代码示例:

git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt

十一、核心技术创新表格

在这里插入图片描述

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐