目前最强大的开源具身智能模型速览:RoboBrain2.0-7B
目前最强大的开源具身智能模型速览:RoboBrain2.0-7B
RoboBrain 2.0: See Better. Think Harder. Do Smarter.
一、项目简介
RoboBrain 2.0 是目前最强大的开源具身智能模型。相比其前身 RoboBrain 1.0,在多智能体任务规划、空间推理和闭环执行方面取得了显著进步。该项目由 BAAI 团队开发,相关的技术报告即将发布。
二、项目背景与动机
随着具身人工智能的发展,对能够高效处理复杂任务的智能模型的需求日益增长。RoboBrain 1.0 已经在机器人操作领域展示了其能力,但为了进一步提升模型的性能和适用范围,BAAI 团队开发了 RoboBrain 2.0。
三、主要特点
RoboBrain 2.0 支持以下关键功能:
-
交互推理与长期规划:能够处理复杂的任务指令,进行长期规划,并根据反馈进行调整。
-
空间感知:从复杂指令中精确预测点和边界框。
-
时间感知:对未来轨迹进行估计。
-
场景推理:通过实时构建和更新结构化内存来理解场景。
四、系统架构
RoboBrain 2.0 的架构支持多图像、长视频和高分辨率视觉输入,以及复杂的任务指令和结构化场景图。视觉输入通过视觉编码器和 MLP 投影器进行处理,文本输入则被标记化为统一的标记流。所有输入馈入大型语言模型(LLM)解码器,执行长链推理并输出结构化计划、空间关系以及相对和绝对坐标。
五、模型版本
RoboBrain 2.0 提供了两种参数规模的模型版本:
-
RoboBrain 2.0-7B:包含 70 亿参数。
-
RoboBrain 2.0-32B:包含 320 亿参数。
六、性能表现
RoboBrain 2.0 在多个基准测试中取得了优异的成绩。RoboBrain 2.0-32B 在 BLINK-Spatial、CV-Bench、EmbSpatial 和 RefSpatial 四个关键具身智能基准测试中达到了最先进的性能,超过了包括 o4-mini、Qwen2.5-VL 等开源模型,以及 Gemini 2.5 Pro 和 Claude Sonnet 4 等闭源模型。
七、技术框架
RoboBrain 2.0 使用了由 BAAI 框架研发团队开发的训练框架 FlagScale,以及 BAAI FlagEval 团队开发的评估框架 FlagEvalMM。
八、重要事件
-
2025 年 6 月 7 日:强调了 FlagScale 和 FlagEvalMM 框架。
-
2025 年 6 月 6 日:在 Hugging Face 上发布了 RoboBrain 2.0-7B 模型检查点。
-
2025 年 6 月 6 日:宣布 RoboBrain 2.0 的发布。
-
2025 年 4 月 11 日:RoboBrain 1.0 被选为 CVPR 2025 官方具身 AI 趋势评论。
-
2025 年 2 月 27 日:RoboBrain 1.0 被 CVPR 2025 接受。
九、后续规划
项目团队计划发布 RoboBrain 2.0-7B 的推理示例、训练代码,以及 RoboBrain 2.0-32B 的模型检查点。
十、核心代码示例
以下是设置和简单推理的代码示例:
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt
十一、核心技术创新表格

更多推荐

所有评论(0)