摘要:本文提出 METIS 视觉 - 语言 - 动作(VLA)模型,构建多源第一视角数据集 EgoAtlas(统一人机动作空间),提取运动感知动力学特征,整合推理与执行框架;在 6 项真实灵巧操作任务中获最高平均成功率,泛化至分布外场景及高自由度执行体,突破灵巧操作数据稀缺瓶颈。

一、引言

构建能跨多样任务感知、推理、执行的通用机器人是机器人领域的核心挑战,灵巧操作更是其中的难点 —— 高质量的灵巧技能动作标注数据稀缺,遥操作采集成本极高。人类操作数据规模庞大、行为模式丰富,可为机器人动作学习提供宝贵先验,但现有方法受限于场景单一、人机视觉 / 动作空间差距大等问题。

北京大学&北京人工智能研究院的团队联合研发的METIS《METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model》:一款基于多源第一视角数据集预训练的灵巧操作视觉 - 语言 - 动作(VLA)模型。核心创新包括:

  • 构建 EgoAtlas 多源第一视角数据集,整合大规模人类 / 机器人数据并统一动作空间;

  • 提取运动感知动力学(紧凑离散的运动表征),为 VLA 训练提供高效监督;

  • 设计统一推理与执行框架,实现下游灵巧操作任务的高效部署。

METIS 在 6 项真实世界灵巧操作任务中取得最高平均成功率,且在分布外场景(未知背景 / 物体 / 光照、杂乱环境)和跨执行体场景中展现出优异的泛化能力,为通用灵巧操作模型研发提供了新方向。

j5824-image.png

图 1 METIS 核心框架:基于多源第一视角数据集 EgoAtlas 预训练,提取运动感知动力学特征(捕捉灵巧操作关键运动信息),整合推理与执行模块,在多样灵巧操作任务中实现高精度执行与强泛化性。

二、相关工作

2.1 灵巧操作

传统灵巧操作方法依赖优化 / 控制算法,需已知动力学和物体模型,泛化性差;基于学习的方法(强化学习 / 模仿学习)虽有进展,但强化学习存在 “仿真 - 现实” 鸿沟,模仿学习依赖昂贵的遥操作数据。本文通过多源第一视角数据预训练,从人类数据中学习运动先验,突破数据稀缺瓶颈。

2.2 从人类数据学习灵巧性

人类数据包含丰富的手部精细运动和语义信息,现有方法从人类视频中学习可操作表征(如可及性、潜在动作、关键点流),但存在冗余信息多、未聚焦核心手部运动的问题;部分方法采用人机数据联合训练,提升策略鲁棒性,但未充分利用互联网海量人类数据。本文通过视觉 + 运动动力学联合建模,从人类数据中学习动作先验。

2.3 视觉 - 语言 - 动作(VLA)模型

VLA 模型近年进展显著,但多聚焦于夹持器操作,忽视灵巧操作的运动 / 交互动力学;少数扩展至灵巧操作的方法受限于人类视频场景单一、人机视觉差距大的问题。本文通过多源第一视角数据 + 增强人类数据集,构建集成式 VLA 模型,实现推理与执行的统一。

三、EgoAtlas 数据集

EgoAtlas 是面向灵巧操作的大规模多源第一视角数据集,核心目标是弥合人类与机器人灵巧操作的数据差距,统一动作空间以支撑 VLA 训练。

3.1 增强人类数据采集的可穿戴系统

传统人类手部运动数据集受限于视角依赖、遮挡、采集空间有限等问题,本文研发可穿戴手套 - 追踪器系统(图 2),实现便携、高精度的人类运动捕捉:

  • 手部捕捉:采用 Manus Quantum Metagloves 记录每只手 25 个关键点的 3D 位置,VIVE Tracker 记录手腕 6 自由度位姿,实现手部全局定位;

  • 视觉捕捉:头戴相机记录第一视角操作画面,配合 VIVE Tracker 完成外参标定,确保运动捕捉与视觉坐标系对齐;

  • 标注:为轨迹添加语言指令和细粒度子任务标注,支持长时程操作的分层推理。

o2518-image.png

图 2 可穿戴手部运动采集系统:集成手套、追踪器、头戴相机,实现无约束场景下的高精度手部运动 + 第一视角视觉采集。

3.2 数据来源与统计

EgoAtlas 整合 4 大类、8 个数据源的人类 / 机器人数据,覆盖视觉动捕、VR 采集、遥操作机器人数据、自研增强人类数据,总计包含 34.3 万条轨迹、8972 万张图像 - 动作对(表 1)。

表 1 EgoAtlas 数据集统计(In-the-wild 表示无约束真实场景采集)

数据源 轨迹数 帧数 子任务标注 人类数据占比 机器人数据占比 无约束场景

ARCTIC

296

21.45 万

100%

0%

H20

109

6.53 万

100%

0%

HoloAssist

100

77.73 万

100%

0%

Oakink

134

14.6 万

100%

0%

EgoDex

31.48 万

7790 万

100%

0%

PH2D

1.8 万

41.65 万

66.1%

33.9%

ActionNet

15.7 万

740 万

0%

100%

自研增强数据

10 万

280 万

100%

0%

3.3 数据处理:统一动作空间

为适配不同执行体的 VLA 训练,构建统一的本体感知 - 动作空间:

  • 手腕位姿:统一为相机坐标系下的 3D 位置 + 6D 旋转向量(18 维);

  • 手部姿态:校准至手腕坐标系下的指尖 3D 位置(30 维);

  • 映射:通过正 / 逆运动学,实现灵巧手关节角与指尖位置的双向转换,确保人机手腕坐标系对齐。

四、METIS 模型设计

METIS 基于多源第一视角数据预训练,核心是通过运动感知动力学捕捉灵巧操作的关键特征,整合推理与执行模块,实现高精度、高泛化的灵巧操作。

k4157-image.png

图 3 METIS 整体框架:(a) 构建紧凑的运动感知动力学表征(视觉动力学 + 运动动力学);(b) 基于 EgoAtlas 预训练(统一人机动作空间);(c) 整合推理与执行模块,适配下游灵巧操作任务。

4.1 运动感知动力学构建

现有 VLA 模型的动作离散化方法存在序列长、生成慢、精细运动捕捉不足的问题,本文提出运动感知动力学(紧凑离散表征),为 VLA 预训练提供高效监督:

  • 视觉动力学离散化:建模运动与视觉变化的因果关系,通过逆动力学编码器提取运动相关的视觉特征,结合 VQ-VAE 量化为离散码本嵌入,聚焦任务相关的视觉动态(而非原始像素);

  • 运动动力学量化:通过 PoseNet 提取 3D 手部运动的时空动力学,结合 RQ-VAE 量化为离散码本嵌入,捕捉从粗到细的层级运动模式,通过时序卷积网络重建运动轨迹以保证监督有效性。

4.2 METIS 核心架构

METIS 基于 Prismatic-7B 初始化,整合 SigLIP+DINOv2 混合视觉编码器(捕捉全局语义 + 精细空间特征),以 7B LLaMA-2 为语言骨干:

  • 词汇扩展:为 LLaMA 分词器新增视觉 / 运动动力学码本对应的特殊令牌,将第一视角操作序列离散为动力学令牌,保留语言先验的同时注入运动信息;

  • 动作解码器:将动力学令牌、视觉嵌入、当前本体感知融合,预测 1 秒内的连续动作序列(30Hz,30 步);

  • 推理 - 执行统一:引入思维链推理,将高层指令分解为子任务,通过特殊令牌自适应切换 “推理模式”/“执行模式”,减少推理延迟,增强推理与控制的协同。

五、实验验证

实验围绕 “真实任务性能、样本效率、泛化性、核心模块贡献” 展开,硬件平台为 Unitree G1 人形机器人(配备 Inspire 6 自由度灵巧手),头载 Intel RealSense D435 相机采集第一视角 RGB 图像。

5.1 实验设置

  • 机器人数据:通过可穿戴手套 - 追踪器系统采集遥操作演示数据,将人类手部运动映射为机器人关节配置;

  • 测试任务:6 项灵巧操作任务(3 项短时程:拾取放置、合笔记本、开抽屉;3 项长时程:抓取两杯饮料入篮、放可乐入篮、开抽屉放面包,图 4);

  • 基线模型:ACT、OpenVLA-OFT、π₀.₅、GR00T N1.5;

  • 评估指标:成功率(SR,完整任务完成)、进度成功率(PSR,长时程任务子任务完成率)。

s5462-image.png

 4 灵巧操作任务示例:涵盖短时程(拾取放置、合笔记本、开抽屉)与长时程(抓取两杯饮料入篮等)任务。

5.2 真实任务性能

METIS 在 6 项任务中取得最高平均成功率,显著优于现有 SOTA 模型(表 2):

  • ACT 擅长短时程任务,但长时程任务表现差(缺乏推理能力);

  • π₀.₅未针对灵巧操作预训练,精细操作精度不足;

  • GR00T N1.5 通过大规模预训练取得竞争力,但长时程任务因无显式推理机制表现受限;

  • METIS 依托运动感知动力学 + 推理 - 执行统一框架,在短 / 长时程任务中均表现最优,且长时程任务 PSR 最高(误差累积少)。

表 2 6 项真实任务核心结果(20 次试次)

方法 拾取放置(SR) 合笔记本(SR) 开抽屉(SR) 抓取两杯饮料入篮(SR/PSR) 放可乐入篮(SR/PSR) 开抽屉放面包(SR/PSR)

ACT

35.0%

65.0%

95.0%

25.0%/40.0%

50.0%/53.3%

5.0%/5.0%

OpenVLA-OFT

50.0%

80.0%

10.0%

40.0%/57.5%

55.0%/56.7%

0.0%/1.0%

π₀.₅

60.0%

85.0%

70.0%

65.0%/72.5%

75.0%/76.7%

60.0%/65.0%

GR00T N1.5

70.0%

80.0%

80.0%

65.0%/70.0%

70.0%/70.0%

70.0%/73.3%

METIS(本文)

85.0%

95.0%

90.0%

75.0%/85.0%

85.0%/82.5%

75.0%/72.5%

此外,METIS 展现出优异的指令跟随能力:在多颜色水果拾取任务中,可精准识别目标水果(如 “将红苹果放在盘子里”)并完成抓取操作。

5.3 样本效率

METIS 在有限数据下仍能实现高性能:仅用 10% 的下游训练数据,“拾取放置” 任务成功率达 50%(图 6),证明多源第一视角预训练赋予模型空间推理、视觉 - 手部协调等先验知识,大幅提升下游任务的适配效率。

r8567-image.png

图 6 样本效率实验:随训练数据量增加,METIS 性能快速提升,少量数据即可达到优异效果。

5.4 泛化性

5.4.1 分布外(OOD)场景泛化

METIS 在 4 类分布外场景中保持稳定性能(表 3),显著优于 GR00T N1.5 和 π₀.₅,证明其能适配视觉 / 物理环境的显著变化:

  • 未知背景:桌面覆盖彩色花纹桌布;

  • 未知光照:彩色闪烁灯光;

  • 未知物体:替换目标物体(面包→牛角包);

  • 杂乱环境:抽屉旁随机放置干扰物。

表 3 分布外场景泛化结果(开抽屉放面包任务)

方法 未知背景 未知光照 未知物体 杂乱场景

π₀.₅

50.0%

70.0%

65.0%

55.0%

GR00T N1.5

65.0%

65.0%

65.0%

60.0%

METIS(本文)

70.0%

70.0%

65.0%

70.0%

5.4.2 跨执行体泛化

METIS 可迁移至 22 自由度 SharpaWave 灵巧手,在 “抓取苹果入篮”(成功率 85.0%)、“工具使用”(成功率 70.0%)任务中表现稳定 —— 因模型预测指尖轨迹而非直接关节角,天然适配不同手部运动学特征。

R3337-image.png

图 7 跨执行体泛化:METIS 适配 22 自由度灵巧手,在抓取、工具使用任务中保持高性能。

5.5 消融实验

5.5.1 多源第一视角预训练的作用

预训练显著提升下游性能,全量 EgoAtlas 预训练效果最优(表 4),证明多样视觉 / 动作分布能让模型学习更鲁棒的视觉 - 运动先验;无预训练模型虽有基础性能,但训练波动大、真实部署时关节抖动明显。

表 4 多源第一视角预训练消融结果

方法 拾取放置(SR) 开抽屉放面包(SR)

METIS - 无预训练

60.0%

35.0%

METIS - 仅人类预训练

70.0%

60.0%

METIS - 全量预训练

85.0%

75.0%

5.5.2 运动感知动力学的作用

移除运动感知动力学后,METIS 性能大幅下降(表 5),尤其长时程任务完全失效,证明该模块捕捉的紧凑运动表征是学习时序一致性、精细动作预测的核心。

表 5 运动感知动力学消融结果

方法 拾取放置(SR) 开抽屉放面包(SR)

METIS - 无运动感知动力学

30.0%

0.0%

METIS - 含运动感知动力学

85.0%

75.0%

六、结论与局限性

6.1 结论

METIS 通过多源第一视角数据集 EgoAtlas 预训练,结合运动感知动力学和推理 - 执行统一框架,在多样灵巧操作任务中实现最优性能,且具备强泛化性(分布外 / 跨执行体),为通用灵巧操作模型研发提供了可行路径。

6.2 局限性

  • 仅依赖第一视角观测,可能无法感知完整物体几何和交互细节,可补充腕部 / 外部相机;

  • 预训练未纳入大规模第三人称数据,未来可扩展至多视角操作数据集。

END

更多推荐