NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

©作者｜机器之心对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。针对该问题，来自中山大学和华为诺亚等单位的研究团

PaperWeekly

128人浏览 · 2024-11-03 23:02:50

PaperWeekly · 2024-11-03 23:02:50 发布

©作者｜机器之心

对于人类而言，一旦掌握了 “打开瓶盖” 的动作，面对 “拧紧螺丝” 这样的任务通常也能游刃有余，因为这两者依赖于相似的手部动作。然而，对于机器人来说，即使是这样看似简单的任务转换依然充满挑战。例如，换成另一种类型的瓶盖，机器人可能无法成功打开。这表明，目前的机器人方法尚未充分让模型学习到任务的内在执行逻辑，而只是单纯的依赖于数据拟合。

针对该问题，来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型，借助 VLMs 作为机器人的大脑，理解任务之间的动作关联性，并通过 “世界模型” 获取对未来动作的表征，从而更好地帮助机器人学习和决策。该方法显著提升了机器人的学习能力，并保持良好的泛化性。

论文链接：

https://arxiv.org/abs/2410.10394

项目主页：

https://abliao.github.io/PIVOT-R/

研究动机

当前，现有机器人操作任务有两个关键问题：

1. 机器人模型在开放世界中表现差且不稳定：许多机器人操作模型虽然能够处理复杂任务，但往往直接将用户指令和视觉感知映射到低层次的可执行动作上，而忽略了操作任务中关键状态（路径点）的建模。这种方式容易使模型记住表面数据模式，导致模型在开放环境中表现脆弱。模型缺乏对关键路径点的预测，使得每个动作的随机性可能逐步放大，降低了任务的执行成功率。

2. 计算效率低：随着模型的增大（例如 RT-2, RT-H），运行速率随之降低，无法满足机器人任务实时性的需求。

为了解决上述问题，研究团队提出了 PIVOT-R，一种原语驱动的路径点感知世界模型。如上图所示，对比左图现有的方法，右图展示了 PIVOT-R 通过关注与任务相关的路径点预测，提升机器人操作的准确性，并设计了一个异步分层执行器，降低计算冗余，提升模型的执行效率。

这样做有几个好处：

1. 它使得模型可以更好的学习任务与动作之间的内在关联性，减少其他干扰因素的影响，并更好地捕捉不同任务之间的相似性（例如，拧瓶盖和拧螺丝的动作是相似的，拿杯子和搭积木都有一个抓住物体的过程），从而使得模型可以在多任务数据下学习到可迁移的知识。

2. 通过世界模型建模的方式获得对未来关键动作的表征，避免了文本语言带来的模糊性、不确定性。

3. 通过异步执行的方式，确保各模块独立运行、互不阻塞，从而有效避免了大模型导致的低速率问题。

研究方法

原语动作解析

PIVOT-R 的第一个核心步骤是原语动作解析，这一步通过预训练的视觉 - 语言模型（VLM）来解析用户的语言指令。VLM 可以将复杂的自然语言指令转换为一组简单的原语动作，例如 “靠近”、“抓取”、“移动” 等。这些原语动作为机器人提供了操作任务的粗略路径。

具体流程如下：

1. 用户输入的语言指令（例如 “请给我那个杯子”）首先被输入到 VLM 中，VLM 会将其解析为与任务相关的原语动作（如 “靠近杯子”、“抓取杯子”）。

2. 原语动作作为提示，指导机器人在接下来的步骤中专注于特定的操作轨迹点。这种方式确保机器人不会被复杂的环境因素干扰，而是明确知道每个动作的目的。

路径点预测

在原语动作解析后，PIVOT-R 的下一步是路径点预测。路径点代表了机器人操控过程中一些关键的中间状态，例如靠近物体、抓取物体、移动物体等。通过预测路径点，PIVOT-R 能够在机器人执行任务时提供明确的操作指导。具体来说，通过一个 Transformer 架构的模型，预测路径点对应的视觉特征，为后续的动作预测模块提供指引。

动作预测模块

动作预测模块负责根据预测的路径点生成具体的低层次机器人动作。它以路径点为提示，结合机器人历史状态（如位置、姿态等），计算下一步应该执行的动作。该模块使用轻量级的 Transformer 架构进行动作预测，确保计算效率和性能的平衡。这一模块的设计重点在于低延迟和高精度执行操控任务。

异步分层执行器

此外，PIVOT-R 还引入了一个关键的执行机制，即异步分层执行器。与以往的机器人模型不同，PIVOT-R 并不对所有模块在每一步都进行同步更新，而是为不同模块设置了不同的执行频率，以多线程的方式进行异步更新，从而提升执行速度。

实验

作者在具有复杂指令的 SeaWave 仿真环境和真实环境下进行实验。

如 Table 1 和 Table 2 所示，PIVOT-R 在仿真环境和真实环境都取得了最优的效果，同时，模型的速度和 RT-1 等方法速度相近，没有因为使用大模型而导致速度变慢。

作者也在 SeaWave 上做了泛化性测试，在三种泛化性测试场景下，PIVOT-R 仍保持远高于其他模型的成功率。

研究总结

PIVOT-R 通过引入原语动作驱动的路径点感知，显著提升了机器人在复杂操控任务中的性能。该模型不仅在执行效率上具备优势，还能够更好地应对复杂、多变的环境。该方法在仿真环境和真实环境操纵下表现优异，为机器人学习提供了一个新范式。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

Marp for VS Code Web扩展使用指南：在浏览器中编辑幻灯片的方法

Marp for VS Code是一款强大的扩展工具，能让你在VS Code中使用Marp Markdown语法创建精美的幻灯片。通过Web扩展，你可以直接在浏览器中体验这一便捷功能，无需复杂配置即可快速上手幻灯片制作。## 快速开始：安装与基础设置要开始使用Marp for VS Code Web扩展，首先需要确保你的VS Code已安装该扩展。你可以通过扩展市场搜索"Marp"找到并安

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合