论文信息:


目录

  1. 执行摘要

  2. 研究背景与问题定义

  3. π*0.6核心创新点

  4. 与传统VLA算法对比

  5. RECAP方法详细分析

  6. 技术突破分析

  7. 实验验证与性能提升

  8. 应用价值与影响

  9. π*0.6作为世界模型+VLA的深度分析

  10. 总结与展望


1. 执行摘要

1.1 核心贡献

π*0.6论文提出了RECAP方法,首次实现了通用VLA模型通过真实世界部署经验进行强化学习改进:

  1. RECAP方法:RL with Experience and Corrections via Advantage-conditioned Policies

    • 结合演示数据、自主经验数据和专家干预数据

    • 通过advantage conditioning实现策略改进

    • 支持从预训练到部署的端到端RL训练

  2. π*0.6模型:基于π0.6的RL改进版本

    • 增加了advantage conditioning能力

    • 支持二值化advantage值作为条件输入

    • 可以结合价值函数改进策略

  3. 实际部署验证

    • 在真实家庭中折叠衣物

    • 可靠地组装纸箱

    • 使用专业咖啡机制作意式咖啡

1.2 主要创新点总结

创新维度 传统VLA方法 π*0.6方法 关键改进
训练数据 仅演示数据 演示+自主经验+专家干预 ✅ 异构数据融合
学习方式 行为克隆/离线RL 在线RL+优势条件化 ✅ 从部署中学习
策略改进 固定策略 Advantage-conditioned策略 ✅ 动态策略优化
价值函数 无/简单奖励 细化的价值函数 ✅ 精确优势估计
部署方式 一次性部署 迭代部署+在线改进 ✅ 持续学习
性能提升 受限于演示 超越演示者 ✅ 2倍吞吐量提升

1.3 技术突破意义

π*0.6论文首次证明了通用VLA模型可以通过真实世界经验显著改进:

  • 异构数据融合:从"仅演示"到"演示+经验+干预"(数据多样性提升3倍)

  • 在线学习能力:从"离线训练"到"部署中学习"(适应能力从60%→90%)

  • 性能超越演示:从"模仿演示"到"超越演示"(吞吐量提升2倍+)


2. 研究背景与问题定义

2.1 VLA模型的发展历程

2.1.1 第一代VLA模型(行为克隆)

代表性工作

  • RT-2 (Google DeepMind, 2023):基于视觉-语言模型的机器人控制

  • PaLM-E (Google, 2023):具身多模态语言模型

  • OpenVLA (2024):开源的视觉-语言-动作模型

  • π0.5 (Physical Intelligence, 2024):通用VLA模型

  • π0.6 (Physical Intelligence, 2024):改进的VLA模型(更大backbone、更多条件)

特点

  • ✅ 强大的多模态理解能力

  • ✅ 良好的泛化性能

  • ✅ 可以通过提示灵活指定任务

  • ❌ 只能模仿演示数据

  • ❌ 无法自主探索

  • ❌ 难以超越演示者

  • ❌ 无法从部署经验中学习

2.1.2 第二代VLA模型(离线RL)

代表性工作

  • RLHF for Robotics:使用人类反馈进行强化学习

  • Fine-tuning VLMs with RL:使用RL微调视觉语言模型

  • πRL (2024):Flow-based VLA在线RL微调

特点

  • ✅ 可以从反馈中学习

  • ✅ 可以优化长期回报

  • ❌ 需要大量离线数据

  • ❌ 无法在线适应

  • ❌ 计算成本高

  • ❌ 难以处理真实世界部署

2.1.3 第三代VLA模型(在线RL + 真实世界部署)

π*0.6论文的定位:首个实现通用VLA模型通过真实世界部署经验进行强化学习改进的方法

2.2 核心问题定义

2.2.1 问题1:如何从真实世界部署中学习?

挑战

  1. 数据异构性

    • 演示数据(高质量但有限)

    • 自主执行数据(大量但质量参差不齐)

    • 专家干预数据(高质量但稀疏)

  2. 奖励信号

    • 真实世界奖励可能模糊或随机

    • 稀疏奖励信号

    • 需要人工标注或评估

  3. 部署成本

    • 真实机器人部署成本高

    • 需要安全机制

    • 难以频繁更新策略

2.2.2 问题2:如何稳定训练大模型?

挑战

  1. 模型规模

    • VLA模型参数量大(数十亿参数)

    • RL训练计算成本高

    • 内存需求大

  2. 训练稳定性

    • 大模型微调容易过拟合

    • RL训练本身不稳定

    • 两者结合更加困难

  3. 信任区域约束

    • 标准PPO clipping在扩散模型上难以实施

    • 需要替代的约束方法

2.2.3 问题3:如何融合异构数据?

挑战

  1. 数据分布差异

    • 不同来源数据分布不同

    • 需要统一处理框架

  2. 数据质量差异

    • 演示数据质量高

    • 自主数据质量参差不齐

    • 需要智能采样策略


3. π*0.6核心创新点

3.1 创新点1:RECAP方法框架

3.1.1 核心思想

RECAP (RL with Experience and Corrections via Advantage-conditioned Policies) 是一个通用的VLA模型强化学习训练框架,支持从预训练到部署的端到端训练。

3.1.2 方法流程
1. 预训练阶段:
   - 使用离线RL在多样化多任务、多机器人数据集上预训练π*0.6
   - 训练价值函数评估任务完成进度
   - 使用advantage conditioning改进策略
​
2. 微调阶段:
   - 使用演示数据微调到下游任务
   - 执行一个或多个迭代的在线数据收集
​
3. 部署阶段:
   - 收集自主执行数据
   - 收集专家干预数据
   - 使用奖励反馈训练价值函数
   - 通过advantage conditioning改进策略
3.1.3 关键组件

1. Advantage Conditioning

  • 将advantage值二值化为指示器(positive/negative)

  • 作为条件输入到策略网络

  • 使策略能够区分好动作和坏动作

2. 价值函数训练

  • 在在线数据上微调价值函数

  • 改进对动作如何影响性能的估计

  • 使用更新后的advantage估计改进策略

3. 异构数据融合

  • 统一处理演示数据、自主数据、干预数据

  • 使用advantage值进行数据加权

  • 智能采样策略

3.2 创新点2:π*0.6模型架构

3.2.1 模型改进

π*0.6基于π0.6的改进:

  • π0.6相比π0.5的改进:

    • 更大的backbone

    • 更多样化的条件输入

  • π*0.6相比π0.6的改进:

    • 新增advantage conditioning能力

    • 支持二值化advantage值作为条件

    • 可以结合价值函数改进策略

3.2.2 Advantage Conditioning机制

技术细节

1. 计算advantage值:
   A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)
​
2. 二值化advantage:
   I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ
   I_t = 0 otherwise
​
3. 条件化策略:
   π_θ(a_t | o_t, ℓ, I_t)

优势

  • 简单有效的策略改进机制

  • 不需要复杂的策略梯度计算

  • 可以处理异构数据

3.3 创新点3:SPO损失函数

3.3.1 问题背景

标准PPO clipping在扩散模型上的问题:

  • 扩散模型使用无界扩散头建模动作

  • 难以在离线设置中实施信任区域约束

  • 标准PPO clipping目标不稳定

3.3.2 SPO损失函数

SPO (Soft Policy Optimization) 损失函数:

$$
\mathcal{L}_{SPO+C_{o} \nu L_{A}}(\theta) = \left\{\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{ar}}}\left[\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}-1\right]\right\}
$$

$$
+ \alpha\left\{\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{flow}}}\left[\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}-1\right]\right\}
$$

关键参数

  • $\alpha$:自回归和flow-matching部分的权衡参数

  • $\epsilon_{\mathrm{ar}}$:自回归部分的信任区域参数

  • $\epsilon_{\mathrm{flow}}$:flow-matching部分的信任区域参数

优势

  • 更稳定的训练

  • 适合离线RL设置

  • 可以处理扩散模型

3.4 创新点4:CFG测试时策略改进

3.4.1 核心思想

在测试时使用Classifier-Free Guidance (CFG)进一步锐化策略,无需额外训练。

3.4.2 技术原理

锐化策略近似:

$$
\hat{\pi}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \propto \pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \left(\frac{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}\right)^{\beta}
$$

推理时使用梯度:

$$
\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) + \beta\left(\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)-\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)\right)
$$

参数设置

  • $\beta \in [1.5, 2.5]$:适度的锐化设置

  • 避免过度锐化导致动作分布超出学习支持范围

优势

  • 无需额外训练

  • 可以灵活调整策略锐化程度

  • 提高策略性能

3.5 创新点5:异构数据融合策略

3.5.1 数据来源

三种数据来源:

  1. 演示数据

    • 高质量人类演示

    • 用于初始策略学习

    • 数量有限但质量高

  2. 自主执行数据

    • 策略自主执行收集

    • 数量大但质量参差不齐

    • 包含成功和失败案例

  3. 专家干预数据

    • 专家在自主执行中的纠正

    • 高质量但稀疏

    • 用于纠正错误模式

3.5.2 融合策略

Algorithm 1: RECAP Training Pipeline

1. 预训练:
   - 在多样化数据集上训练π*0.6
   - 训练价值函数V^π
   - 计算advantage值
​
2. 任务微调:
   - 使用演示数据微调到任务
   - 迭代改进:
     a. 部署策略收集数据(自主+干预)
     b. 在在线数据上微调价值函数
     c. 计算advantage值
     d. 使用advantage conditioning改进策略

数据聚合策略

  • 使用advantage值进行数据加权

  • 优先使用高advantage数据

  • 平衡不同数据来源


4. 与传统VLA算法对比

4.1 与第一代VLA模型对比(RT-2, PaLM-E, OpenVLA, π0.6)

维度 第一代VLA π*0.6 关键差异
训练方式 行为克隆 离线RL + 在线RL ✅ 支持强化学习
数据来源 仅演示数据 演示+自主+干预 ✅ 异构数据融合
学习能力 模仿学习 从经验中学习 ✅ 超越演示者
部署方式 一次性部署 迭代部署改进 ✅ 持续学习
性能上限 受限于演示 超越演示 ✅ 2倍吞吐量提升
适应能力 固定策略 动态改进 ✅ 适应新环境

4.2 与离线RL方法对比

维度 离线RL方法 π*0.6 (RECAP) 关键差异
数据收集 离线批量收集 在线迭代收集 ✅ 部署中学习
策略更新 批量更新 迭代更新 ✅ 持续改进
适应能力 无法适应新环境 适应新环境 ✅ 在线适应
计算成本 高(批量处理) 中等(迭代处理) ✅ 更高效
部署成本 一次性高成本 分散到迭代中 ✅ 成本可控

4.3 与其他VLA+RL方法对比(πRL, RLinf-VLA)

维度 πRL RLinf-VLA π*0.6 (RECAP) 关键差异
策略表示 Flow-based 多种支持 Diffusion-based 不同架构
训练方式 在线RL 统一框架 离线+在线RL ✅ 端到端
数据融合 单一来源 多种来源 异构数据 ✅ 更全面
优势机制 Flow-Noise 标准RL Advantage-conditioning ✅ 更简单
部署验证 仿真为主 仿真为主 真实世界 实际部署
性能提升 仿真提升 仿真提升 2倍吞吐量 实际验证

4.4 核心差异总结

4.4.1 数据使用方式

传统方法

  • 仅使用演示数据

  • 或仅使用离线收集的数据

  • 数据来源单一

π*0.6方法

  • ✅ 融合演示、自主、干预三种数据

  • ✅ 智能数据加权和采样

  • ✅ 异构数据统一处理

4.4.2 学习机制

传统方法

  • 行为克隆:简单模仿

  • 离线RL:批量学习

  • 在线RL:需要频繁策略更新

π*0.6方法

  • ✅ Advantage-conditioning:简单有效的策略改进

  • ✅ 价值函数微调:精确的优势估计

  • ✅ 迭代部署:持续改进

4.4.3 部署方式

传统方法

  • 一次性部署

  • 无法在线改进

  • 需要重新训练才能适应

π*0.6方法

  • ✅ 迭代部署

  • ✅ 在线数据收集

  • ✅ 持续策略改进


5. RECAP方法详细分析

5.1 方法架构

┌─────────────────────────────────────────────────────────┐
│                    RECAP Training Pipeline                │
└─────────────────────────────────────────────────────────┘
​
阶段1: 预训练(离线RL)
├── 输入: 多样化多任务、多机器人数据集
├── 训练: π*0.6模型 + 价值函数V^π
├── 输出: 通用VLA模型
└── 特点: 大规模预训练,学习通用能力
​
阶段2: 任务微调(演示数据)
├── 输入: 任务特定演示数据
├── 训练: 微调π*0.6到下游任务
├── 输出: 任务特定策略
└── 特点: 快速适应新任务
​
阶段3: 迭代改进(在线RL)
├── 迭代1:
│   ├── 部署策略收集数据(自主+干预)
│   ├── 微调价值函数V^π
│   ├── 计算advantage值
│   └── 使用advantage conditioning改进策略
├── 迭代2:
│   └── 重复迭代1过程
└── 迭代N:
    └── 持续改进直到满足性能要求

5.1.1 完整Pipeline流程图

┌─────────────────────────────────────────────────────────────────┐
│                    RECAP完整训练Pipeline                          │
└─────────────────────────────────────────────────────────────────┘
​
【阶段1: 预训练(离线RL)】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 多样化多任务、多机器人数据集 D_pretrain                  │
│                                                               │
│ 步骤1.1: 初始化π*0.6模型(基于π0.6架构)                      │
│ 步骤1.2: 训练价值函数 V^π(·)                                  │
│ 步骤1.3: 计算advantage值 A^π(o_t, a_t) = Σr_t' - V^π(o_t)    │
│ 步骤1.4: 使用SPO损失函数训练策略(advantage conditioning)    │
│                                                               │
│ 输出: 预训练模型 π*0.6_pretrain, V^π_pretrain                │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段2: 任务微调(演示数据)】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 任务特定演示数据 D_demo = {(o_i, a_i, ℓ_i)}            │
│                                                               │
│ 步骤2.1: 使用演示数据微调π*0.6到下游任务                      │
│ 步骤2.2: 行为克隆损失: L_BC = -log π_θ(a|o, ℓ)               │
│ 步骤2.3: 可选:在演示数据上微调价值函数                        │
│                                                               │
│ 输出: 任务特定策略 π*0.6_task                                │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段3: 在线部署迭代改进(核心Pipeline)】
┌─────────────────────────────────────────────────────────────┐
│ FOR iteration = 1 to N:                                       │
│                                                               │
│   【步骤3.1: 部署策略收集数据】                                │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.1.1: 部署当前策略π*0.6_iter到真实机器人              │   │
│   │ 3.1.2: 收集自主执行数据 D_autonomous                   │   │
│   │        - 策略自主执行episode                          │   │
│   │        - 记录观察o_t、动作a_t、奖励r_t                 │   │
│   │ 3.1.3: 收集专家干预数据 D_correction                   │   │
│   │        - 专家在自主执行中的纠正                        │   │
│   │        - 高质量但稀疏的纠正轨迹                        │   │
│   │ 3.1.4: 评估策略性能(成功率、吞吐量等)                 │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.2: 数据聚合与奖励标注】                             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.2.1: 合并异构数据                                    │   │
│   │        D_online = D_demo ∪ D_autonomous ∪ D_correction │   │
│   │ 3.2.2: 为每个episode计算奖励信号                        │   │
│   │        - 任务完成奖励(稀疏)                           │   │
│   │        - 中间步骤奖励(可选)                           │   │
│   │        - 人工评估奖励(用于价值函数训练)               │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.3: 微调价值函数】                                   │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.3.1: 在在线数据D_online上微调价值函数V^π             │   │
│   │ 3.3.2: 价值函数损失:                                   │   │
│   │        L_V = (V^π(o_t) - R_t)^2                       │   │
│   │        其中 R_t = Σ_{t'=t}^T r_{t'}                    │   │
│   │ 3.3.3: 使用在线数据改进对任务完成进度的估计              │   │
│   │ 输出: 更新后的价值函数 V^π_iter                        │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.4: 计算Advantage值】                                │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.4.1: 使用更新后的价值函数计算advantage                │   │
│   │        A^π(o_t, a_t, ℓ) =                            │   │
│   │          Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) -    │   │
│   │          V^π(o_t)                                    │   │
│   │        (N=50步前瞻,微调阶段)                          │   │
│   │ 3.4.2: 二值化advantage值                               │   │
│   │        I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ             │   │
│   │        I_t = 0 otherwise                             │   │
│   │ 3.4.3: 设置阈值ε_ℓ(约40%数据有正advantage)            │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.5: 策略改进(Advantage Conditioning)】             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.5.1: 使用SPO损失函数训练策略                          │   │
│   │        L_SPO = L_SPO_ar + α·L_SPO_flow                │   │
│   │ 3.5.2: 策略输入条件化                                  │   │
│   │        π_θ(a_t | o_t, ℓ, I_t)                        │   │
│   │        - 当I_t=1时,策略学习产生高advantage动作         │   │
│   │        - 当I_t=0时,策略学习避免低advantage动作         │   │
│   │ 3.5.3: Conditioning Dropout(30%时间)                 │   │
│   │        - 支持CFG测试时策略改进                          │   │
│   │ 3.5.4: 使用参考策略π_ref进行信任区域约束                │   │
│   │ 输出: 改进后的策略 π*0.6_{iter+1}                      │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.6: 性能评估与迭代决策】                             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.6.1: 评估新策略性能                                  │   │
│   │        - 成功率、吞吐量、失败率等指标                    │   │
│   │ 3.6.2: 判断是否继续迭代                                │   │
│   │        - 如果性能提升显著,继续迭代                     │   │
│   │        - 如果性能收敛,停止迭代                         │   │
│   │ 3.6.3: 更新参考策略(可选)                            │   │
│   │        π_ref = π*0.6_{iter+1}                        │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│ END FOR                                                       │
│                                                               │
│ 输出: 最终改进策略 π*0.6_final                              │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段4: 测试时策略改进(可选)】
┌─────────────────────────────────────────────────────────────┐
│ 使用Classifier-Free Guidance (CFG)进一步锐化策略              │
│                                                               │
│ 步骤4.1: 计算CFG梯度                                          │
│          ∇_a log π_θ(a|o, ℓ) +                              │
│          β(∇_a log π_θ(a|I=1, o, ℓ) -                       │
│             ∇_a log π_θ(a|o, ℓ))                            │
│                                                               │
│ 步骤4.2: 使用梯度引导采样(β ∈ [1.5, 2.5])                   │
│                                                               │
│ 输出: 锐化后的策略(无需额外训练)                            │
└─────────────────────────────────────────────────────────────┘

5.2 Advantage Estimation

5.2.1 预训练阶段

优势估计公式:

$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=0}^{T} r_{t}^{\prime} - V^{\pi}\left(\mathbf{o}_{t}\right)
$$

特点

  • 使用整个episode的回报

  • $N = T$(episode长度)

  • 高方差估计但适合大规模预训练

  • 单次价值函数推理即可计算

5.2.2 微调阶段

优势估计公式:

$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=t}^{t+N-1} r_{t}^{\prime} + V^{\pi}\left(\mathbf{o}_{t+N}\right) - V^{\pi}\left(\mathbf{o}_{t}\right)
$$

特点

  • 使用N步前瞻($N=50$)

  • 结合即时奖励和未来价值

  • 低方差估计

  • 适合精细调优

5.3 Advantage Conditioning机制

5.3.1 二值化过程

Advantage阈值设置

  1. 预训练阶段

    • 对每个任务选择阈值$\epsilon_{\ell}$

    • 使得约30%的演示数据有正advantage

    • 基于10k随机样本计算

  2. 微调阶段

    • 一般设置:约40%的评估rollout有正advantage

    • 特殊情况(如T恤和短裤折叠):

      • 高质量演示数据产生慢但成功率高的策略

      • 提高阈值使得仅约10%的数据有正advantage

5.3.2 Conditioning Dropout

训练时随机dropout

  • 30%的时间随机dropout advantage conditioning

  • 目的:

    1. 可以直接从条件或无条件策略采样

    2. 支持CFG进行测试时策略改进

    3. 有效替代损失乘数$\alpha$

5.4 在线部署训练Pipeline算法伪代码

5.4.1 RECAP算法伪代码
# Algorithm 1: RECAP Training Pipeline
# 输入: 预训练模型π*0.6_pretrain, 价值函数V^π_pretrain
#       任务演示数据D_demo, 任务描述ℓ
​
def RECAP_Training_Pipeline(π_pretrain, V_pretrain, D_demo, ℓ):
    # 阶段1: 任务微调(演示数据)
    π_task = FineTune_On_Demo(π_pretrain, D_demo, ℓ)
    V_task = FineTune_ValueFunction(V_pretrain, D_demo, ℓ)
    
    # 阶段2: 在线部署迭代改进
    π_current = π_task
    V_current = V_task
    D_accumulated = D_demo  # 累积所有数据
    
    for iteration in range(1, N_max_iterations + 1):
        # 步骤1: 部署策略收集数据
        D_autonomous, D_correction = Deploy_And_Collect(
            π_current, 
            num_episodes_autonomous,
            num_episodes_correction
        )
        
        # 步骤2: 数据聚合
        D_online = D_accumulated ∪ D_autonomous ∪ D_correction
        
        # 步骤3: 计算奖励信号
        for episode in D_online:
            episode.rewards = Compute_Rewards(episode, ℓ)
            # 稀疏奖励:任务完成时r_T=1,否则r_t=0
            # 或使用人工评估奖励
        
        # 步骤4: 微调价值函数
        V_updated = FineTune_ValueFunction(
            V_current,
            D_online,
            loss_fn=MSELoss,  # L_V = (V^π(o_t) - R_t)^2
            epochs=value_function_epochs
        )
        
        # 步骤5: 计算Advantage值
        for episode in D_online:
            for t in range(len(episode)):
                # N步前瞻advantage估计
                N = 50  # 微调阶段
                R_t = sum(episode.rewards[t:t+N])
                V_future = V_updated(episode.observations[t+N])
                V_current = V_updated(episode.observations[t])
                
                episode.advantages[t] = R_t + V_future - V_current
                
                # 二值化advantage
                ε_ℓ = Compute_Threshold(D_online, ℓ)  # 约40%正advantage
                episode.I_t[t] = 1 if episode.advantages[t] > ε_ℓ else 0
        
        # 步骤6: 策略改进(Advantage Conditioning)
        π_updated = Train_Policy_With_SPO(
            π_current,
            D_online,
            V_updated,
            reference_policy=π_task,  # 或π_current
            advantage_conditioning=True,
            conditioning_dropout_rate=0.3
        )
        
        # 步骤7: 性能评估
        performance = Evaluate_Policy(π_updated, ℓ)
        print(f"Iteration {iteration}: Success Rate = {performance.success_rate}, "
              f"Throughput = {performance.throughput}")
        
        # 步骤8: 判断是否继续迭代
        if performance.improvement < threshold or iteration >= N_max_iterations:
            break
        
        # 更新当前策略和价值函数
        π_current = π_updated
        V_current = V_updated
        D_accumulated = D_online
    
    return π_current, V_current
5.4.2 关键函数详细实现

1. 部署与数据收集函数

def Deploy_And_Collect(π, num_autonomous, num_correction):
    """
    部署策略到真实机器人并收集数据
    """
    D_autonomous = []
    D_correction = []
    
    # 收集自主执行数据
    for i in range(num_autonomous):
        episode = []
        observation = env.reset()
        
        while not env.is_done():
            # 策略采样动作
            action = π.sample(observation, task_description)
            next_obs, reward, done = env.step(action)
            
            episode.append({
                'observation': observation,
                'action': action,
                'reward': reward,
                'done': done
            })
            observation = next_obs
        
        D_autonomous.append(episode)
    
    # 收集专家干预数据
    for i in range(num_correction):
        episode = []
        observation = env.reset()
        expert_intervened = False
        
        while not env.is_done():
            # 策略采样动作
            action_policy = π.sample(observation, task_description)
            
            # 专家可以干预纠正
            if expert.should_intervene(observation, action_policy):
                action = expert.correct(observation, action_policy)
                expert_intervened = True
            else:
                action = action_policy
            
            next_obs, reward, done = env.step(action)
            
            episode.append({
                'observation': observation,
                'action': action,
                'action_policy': action_policy,
                'expert_intervened': expert_intervened,
                'reward': reward,
                'done': done
            })
            observation = next_obs
        
        D_correction.append(episode)
    
    return D_autonomous, D_correction

2. SPO损失函数训练策略

def Train_Policy_With_SPO(π, D, V, reference_policy, 
                          advantage_conditioning=True,
                          conditioning_dropout_rate=0.3):
    """
    使用SPO损失函数训练策略
    """
    optimizer = Adam(π.parameters(), lr=policy_lr)
    
    for epoch in range(policy_epochs):
        for batch in DataLoader(D, batch_size=batch_size):
            observations = batch['observations']
            actions = batch['actions']
            advantages = batch['advantages']
            I_t = batch['I_t']  # 二值化advantage指示器
            
            # Conditioning Dropout
            if random.random() < conditioning_dropout_rate:
                I_t = None  # 无条件训练
            
            # 计算策略损失
            if advantage_conditioning and I_t is not None:
                # 条件策略: π(a|o, ℓ, I_t)
                log_prob = π.log_prob(actions, observations, 
                                      task_description, I_t)
            else:
                # 无条件策略: π(a|o, ℓ)
                log_prob = π.log_prob(actions, observations, 
                                      task_description)
            
            # 参考策略概率
            with torch.no_grad():
                log_prob_ref = reference_policy.log_prob(
                    actions, observations, task_description
                )
            
            # SPO损失函数
            ratio = torch.exp(log_prob - log_prob_ref)
            
            # 自回归部分损失
            L_ar = (ratio * advantages - 
                   abs(advantages) / (2 * ε_ar) * 
                   (ratio - 1).clamp(min=0))
            
            # Flow-matching部分损失
            L_flow = (ratio * advantages - 
                     abs(advantages) / (2 * ε_flow) * 
                     (ratio - 1).clamp(min=0))
            
            # 总损失
            loss = -L_ar.mean() - α * L_flow.mean()
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
    
    return π
5.4.3 不同任务的数据收集策略

1. 衣物折叠(T恤和短裤)

  • 仅使用自主评估数据(无专家纠正)

  • 原因:模型性能接近专家速度,难以提供纠正

  • 收集:300个episode,4个机器人站

  • 迭代次数:通常1-2次迭代即可达到性能上限

2. 多样化衣物折叠

  • 450个评估episode

  • 287个纠正episode

  • 结合自主和纠正数据

  • 迭代次数:2-3次迭代

3. 纸箱组装

  • 部署场景中直接收集

  • 每轮迭代:600个演示 + 360个纠正episode

  • 使用3个机器人

  • 迭代次数:多次迭代,持续改进

4. 咖啡制作

  • 单次迭代

  • 429个纠正episode

  • 414个自主episode

  • 迭代次数:通常1次迭代即可显著提升

5.4.4 数据聚合与采样策略

数据聚合原则

  1. 保留所有演示数据:演示数据始终包含在训练集中

  2. 累积在线数据:每次迭代的新数据累积到总数据集中

  3. 智能采样:根据advantage值进行加权采样

    • 高advantage数据权重更高

    • 平衡不同数据来源(演示、自主、干预)

采样策略

def Sample_Training_Batch(D_accumulated, batch_size):
    """
    智能采样训练批次
    """
    # 计算每个样本的采样权重
    weights = []
    for episode in D_accumulated:
        for step in episode:
            # 基于advantage值计算权重
            advantage = step['advantage']
            weight = max(0, advantage) + 0.1  # 确保所有样本有最小权重
            weights.append(weight)
    
    # 归一化权重
    weights = np.array(weights)
    weights = weights / weights.sum()
    
    # 加权采样
    indices = np.random.choice(len(weights), 
                              size=batch_size, 
                              p=weights)
    
    return [D_accumulated[i] for i in indices]
5.4.5 迭代停止条件

停止条件判断

  1. 性能提升阈值:如果连续2次迭代性能提升 < 5%,停止迭代

  2. 最大迭代次数:达到预设的最大迭代次数(如5次)

  3. 性能收敛:性能指标(成功率、吞吐量)达到目标值

  4. 资源限制:达到时间或计算资源限制

性能评估指标

  • 成功率:任务完成的episode比例

  • 吞吐量:单位时间内完成的任务数量

  • 失败率:任务失败的episode比例

  • 平均episode长度:完成任务的平均步数

5.5 在线部署训练Pipeline关键要点总结

5.5.1 Pipeline核心流程

在线部署训练提升的Pipeline包含以下6个关键步骤(每次迭代)

  1. 部署策略收集数据 → 2. 数据聚合与奖励标注 → 3. 微调价值函数 → 4. 计算Advantage值 → 5. 策略改进(Advantage Conditioning) → 6. 性能评估与迭代决策

5.5.2 关键技术要点
技术要点 详细说明 创新性
异构数据融合 统一处理演示、自主、干预三种数据源 ✅ 首次实现三种数据源统一训练
Advantage Conditioning 二值化advantage作为策略条件输入 ✅ 简单有效的策略改进机制
价值函数微调 在在线数据上持续改进价值估计 ✅ 精确的优势估计
SPO损失函数 适合扩散模型的信任区域约束 ✅ 稳定的大模型RL训练
迭代部署 真实世界持续学习和改进 ✅ 首次真实世界验证
CFG测试时改进 无需额外训练的策略锐化 ✅ 灵活的性能提升
5.5.3 Pipeline数据流
真实世界部署
    ↓
[自主执行数据] + [专家干预数据]
    ↓
数据聚合 (D_online = D_demo ∪ D_autonomous ∪ D_correction)
    ↓
奖励标注 (稀疏奖励或人工评估)
    ↓
价值函数微调 (V^π更新)
    ↓
Advantage计算 (N步前瞻,二值化)
    ↓
策略改进 (SPO损失 + Advantage Conditioning)
    ↓
性能评估
    ↓
迭代决策 (继续/停止)
5.5.4 与传统方法的Pipeline对比
阶段 传统VLA方法 π*0.6 RECAP方法
预训练 行为克隆,仅演示数据 离线RL,多样化数据
任务适应 演示数据微调 演示数据微调 + 价值函数训练
部署 一次性部署,无法改进 迭代部署,持续改进
数据收集 自主执行 + 专家干预
策略更新 价值函数微调 + Advantage Conditioning
性能提升 受限于演示 超越演示,2倍吞吐量提升
5.5.5 Pipeline实际部署经验

关键成功因素

  1. 数据收集策略

    • 平衡自主执行和专家干预数据

    • 根据任务特点调整数据收集比例

    • 确保数据质量和多样性

  2. 价值函数训练

    • 在在线数据上持续微调

    • 使用准确的奖励信号

    • 避免过拟合

  3. Advantage阈值设置

    • 预训练阶段:约30%正advantage

    • 微调阶段:约40%正advantage

    • 特殊情况:可调整到10%(高质量演示)

  4. 迭代策略

    • 通常1-3次迭代即可显著提升

    • 根据性能提升决定是否继续

    • 避免过度迭代导致过拟合

  5. 真实世界部署

    • 需要安全机制

    • 支持专家实时干预

    • 监控策略性能

实际部署效果

  • 衣物折叠:2倍吞吐量提升,2小时+连续运行

  • 纸箱组装:可靠性显著提升,可用于实际工厂

  • 咖啡制作:13小时+连续运行,高成功率


6. 技术突破分析

6.1 突破1:异构数据融合

6.1.1 技术挑战

问题

  • 不同数据来源分布不同

  • 数据质量差异大

  • 需要统一处理框架

解决方案

  • ✅ Advantage值作为统一指标

  • ✅ 智能数据加权

  • ✅ 统一训练流程

6.1.2 创新点

首次实现

  • 演示数据、自主数据、干预数据的统一融合

  • 通过advantage值进行智能加权

  • 支持迭代改进

6.2 突破2:稳定的大模型RL训练

6.2.1 技术挑战

问题

  • 标准PPO clipping在扩散模型上不稳定

  • 大模型微调容易过拟合

  • 离线RL设置难以实施信任区域约束

解决方案

  • ✅ SPO损失函数替代标准PPO

  • ✅ 分离的自回归和flow-matching信任区域参数

  • ✅ 稳定的训练流程

6.2.2 创新点

SPO损失函数

  • 适合扩散模型的信任区域约束

  • 分离处理自回归和flow-matching部分

  • 稳定的离线RL训练

6.3 突破3:真实世界部署验证

6.3.1 技术挑战

问题

  • 真实世界部署成本高

  • 需要安全机制

  • 难以频繁更新策略

解决方案

  • ✅ 迭代部署策略

  • ✅ 在线数据收集

  • ✅ 持续策略改进

6.3.2 创新点

首次实现

  • 通用VLA模型在真实世界的持续学习

  • 从部署经验中显著改进性能

  • 实际验证的性能提升(2倍吞吐量)


7. 实验验证与性能提升

7.1 实验任务

7.1.1 任务1:衣物折叠

任务描述

  • 在真实家庭中折叠多样化的衣物

  • 包括T恤、短裤、长裤等

  • 处理真实世界的变异性

性能提升

  • ✅ 吞吐量提升:2倍+

  • ✅ 失败率降低:50%+

  • ✅ 连续运行:2小时+无中断

7.1.2 任务2:纸箱组装

任务描述

  • 可靠地组装纸箱

  • 处理真实包装场景

  • 处理纸箱粘连和弯曲等挑战

性能提升

  • ✅ 可靠性显著提升

  • ✅ 可用于实际工厂包装

7.1.3 任务3:意式咖啡制作

任务描述

  • 使用专业咖啡机制作意式咖啡

  • 处理液体倾倒等复杂操作

  • 处理真实咖啡机的变异性

性能提升

  • ✅ 连续运行:13小时+

  • ✅ 高成功率

  • ✅ 实际可用性验证

7.2 性能提升总结

任务 吞吐量提升 失败率降低 连续运行时间
衣物折叠 2倍+ 50%+ 2小时+
纸箱组装 显著提升 显著降低 实际部署
咖啡制作 显著提升 显著降低 13小时+

7.3 关键成果

1. 实用性验证

  • ✅ 真实世界部署

  • ✅ 长时间连续运行

  • ✅ 实际应用场景

2. 性能超越演示

  • ✅ 吞吐量超越人类演示者

  • ✅ 失败率低于初始策略

  • ✅ 适应新环境能力

3. 持续学习能力

  • ✅ 从部署经验中学习

  • ✅ 迭代改进策略

  • ✅ 适应新场景


8. 应用价值与影响

8.1 理论贡献

1. 方法创新

  • RECAP方法框架

  • Advantage-conditioning机制

  • SPO损失函数

2. 理论突破

  • 异构数据融合理论

  • 大模型RL训练稳定性

  • 真实世界持续学习

8.2 实践价值

1. 实际应用

  • 真实世界机器人部署

  • 持续学习和改进

  • 超越人类演示者

2. 工程价值

  • 可扩展的训练流程

  • 稳定的训练方法

  • 实用的部署策略

8.3 影响范围

1. 学术影响

  • 开创VLA模型真实世界RL训练

  • 提供通用训练框架

  • 推动领域发展

2. 工业影响

  • 实际机器人应用

  • 降低部署成本

  • 提高系统性能


9. π*0.6作为世界模型+VLA的深度分析

9.1 为什么说π*0.6是世界模型+VLA的模型?

根据世界模型综述论文(arXiv:2411.14499)的定义,世界模型具有两大核心功能:

  1. 理解世界机制:构建内部表示以理解环境的运作规律

  2. 预测未来状态:预测环境的动态变化以指导决策

π*0.6不仅是一个VLA模型,更是一个世界模型增强的VLA模型,因为它同时具备VLA的多模态理解能力和世界模型的预测与理解能力。

9.2 π*0.6中的世界模型特征

9.2.1 价值函数作为世界模型的核心组件

世界模型定义(根据综述论文):

  • 世界模型是智能体对环境的内部表示或模拟

  • 用于预测环境的动态和结果

  • 支持决策和规划

π*0.6中的价值函数V^π

V^π(o_t) = E[Σ_{t'=t}^T r_{t'} | o_t, π]

世界模型特征体现

  1. 内部世界表示

    • 价值函数V^π学习了对世界状态的内部表示

    • 能够评估当前观察o_t对应的世界状态价值

    • 理解任务完成进度和世界状态

  2. 未来状态预测

    • 通过N步前瞻advantage估计预测未来:

      A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)
    • 预测执行动作a_t后未来N步的回报

    • 评估动作对世界状态的影响

  3. 持续学习与改进

    • 在在线数据上持续微调价值函数

    • 改进对世界动态的理解

    • 适应真实世界的变异性

9.2.2 Advantage估计作为预测机制

Advantage估计公式

A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)

世界模型预测特征

  1. N步前瞻预测

    • 预测未来N步(N=50)的回报

    • 结合即时奖励和未来价值

    • 类似于世界模型的前向预测

  2. 动作影响评估

    • 评估动作a_t对未来世界状态的影响

    • 预测动作的长期后果

    • 支持基于模型的规划

  3. 不确定性处理

    • 通过价值函数的不确定性量化预测置信度

    • 处理真实世界的随机性

9.2.3 从经验中学习世界动态

世界模型学习特征(参考Dreamer系列):

  • 从经验数据中学习环境动态

  • 构建对世界的内部表示

  • 持续改进对世界的理解

π*0.6的学习机制

  1. 异构数据融合

    • 从演示、自主执行、专家干预数据中学习

    • 理解不同场景下的世界动态

    • 构建更全面的世界表示

  2. 在线学习

    • 在真实世界部署中持续学习

    • 适应新环境和新任务

    • 改进对世界动态的理解

  3. 价值函数微调

    • 在在线数据上微调价值函数

    • 改进对任务完成进度的估计

    • 更准确地预测未来状态

9.3 π*0.6中的VLA模型特征

9.3.1 多模态理解能力

VLA模型定义

  • Vision-Language-Action模型

  • 结合视觉、语言、动作三种模态

  • 从视觉和语言输入生成动作

π*0.6的VLA架构

输入: 观察o_t(视觉) + 任务描述ℓ(语言)
输出: 动作a_t(动作)
模型: π_θ(a_t | o_t, ℓ, I_t)

VLA特征体现

  1. 视觉理解

    • 处理高维视觉输入(图像/视频)

    • 理解场景、物体、空间关系

    • 基于π0.6的强大视觉编码器

  2. 语言理解

    • 理解任务描述ℓ

    • 支持自然语言指令

    • 灵活的任务指定

  3. 动作生成

    • 生成连续动作序列

    • 支持复杂操作任务

    • Diffusion-based动作生成

9.3.2 多模态条件化

条件化策略

π_θ(a_t | o_t, ℓ, I_t)

多模态条件

  • 视觉条件:o_t(当前观察)

  • 语言条件:ℓ(任务描述)

  • 世界模型条件:I_t(advantage指示器,来自价值函数)

9.4 世界模型+VLA的融合架构

9.4.1 整体架构
┌─────────────────────────────────────────────────────────┐
│              π*0.6: 世界模型增强的VLA架构                │
└─────────────────────────────────────────────────────────┘
​
【VLA组件】
├── 视觉编码器: o_t → 视觉特征
├── 语言编码器: ℓ → 语言特征
└── 动作解码器: [视觉特征, 语言特征, I_t] → a_t
​
【世界模型组件】
├── 价值函数: V^π(o_t) → 状态价值
├── Advantage估计: A^π(o_t, a_t, ℓ) → 动作优势
└── 未来预测: V^π(o_{t+N}) → 未来状态价值
​
【融合机制】
├── Advantage Conditioning: I_t = sign(A^π) → 策略条件
├── 价值函数微调: 在在线数据上改进V^π
└── 策略改进: 使用advantage conditioning改进策略
9.4.2 世界模型与VLA的协同

1. 世界模型增强VLA决策

  • 价值函数提供世界状态评估

  • Advantage估计提供动作质量评估

  • 指导VLA生成更好的动作

2. VLA增强世界模型学习

  • VLA的多模态理解能力帮助理解世界状态

  • 视觉和语言信息丰富世界表示

  • 动作执行提供世界动态数据

3. 端到端学习

  • 世界模型和VLA联合训练

  • 相互促进,共同改进

  • 从预训练到部署的端到端优化

9.5 与世界模型发展脉络的对应

9.5.1 与世界模型分类的对应

根据世界模型综述论文的分类:

世界模型类型 π*0.6中的体现
理解型世界模型 价值函数V^π学习世界状态表示,理解任务完成进度
预测型世界模型 Advantage估计预测未来N步回报,评估动作影响
基于模型的RL 使用价值函数和advantage进行策略改进
多模态世界模型 结合视觉、语言、动作三种模态
9.5.2 与世界模型发展阶段的对应

2024年多模态世界模型时代(根据世界模型发展脉络):

  • 多模态融合(视觉+语言+动作)✅

  • 大规模预训练 ✅

  • 真实世界部署 ✅

  • 持续学习 ✅

π*0.6的定位

  • 属于2024年多模态世界模型时代的产物

  • 结合了VLA的多模态能力和世界模型的预测能力

  • 在真实世界中验证了世界模型+VLA的可行性

9.6 与传统世界模型的对比

9.6.1 与传统世界模型的差异
特征 传统世界模型(如Dreamer) π*0.6(世界模型+VLA)
输入模态 仅视觉 视觉+语言
动作空间 低维连续动作 高维复杂动作序列
任务指定 固定任务 自然语言任务描述
泛化能力 任务特定 多任务泛化
部署方式 仿真为主 真实世界部署
学习方式 梦境训练 在线RL+真实世界学习
9.6.2 与传统VLA模型的差异
特征 传统VLA(如RT-2, π0.6) π*0.6(世界模型+VLA)
世界模型 价值函数V^π
未来预测 N步前瞻advantage
策略改进 行为克隆 Advantage conditioning
学习方式 离线训练 在线RL+持续学习
性能上限 受限于演示 超越演示者

9.7 世界模型+VLA的创新意义

9.7.1 理论创新

首次实现

  • ✅ 通用VLA模型与世界模型的深度融合

  • ✅ 价值函数作为世界模型组件指导VLA决策

  • ✅ 真实世界持续学习的世界模型+VLA系统

9.7.2 技术突破

关键技术

  1. Advantage Conditioning

    • 将世界模型的预测(advantage)作为VLA的条件

    • 实现世界模型与VLA的深度融合

  2. 价值函数微调

    • 在在线数据上持续改进世界模型

    • 适应真实世界的变异性

  3. 异构数据融合

    • 从多种数据源学习世界动态

    • 构建更全面的世界表示

9.7.3 应用价值

实际应用

  • ✅ 真实世界机器人部署

  • ✅ 持续学习和改进

  • ✅ 超越人类演示者

  • ✅ 多任务泛化

9.8 总结:π*0.6作为世界模型+VLA的证据

核心证据

  1. 世界模型特征

    • ✅ 价值函数V^π作为世界状态表示

    • ✅ N步前瞻advantage估计作为未来预测

    • ✅ 从经验中持续学习世界动态

    • ✅ 支持基于模型的决策

  2. VLA模型特征

    • ✅ 视觉-语言-动作多模态架构

    • ✅ 自然语言任务指定

    • ✅ 复杂动作序列生成

    • ✅ 多任务泛化能力

  3. 融合创新

    • ✅ Advantage conditioning实现深度融合

    • ✅ 端到端联合训练

    • ✅ 真实世界验证

结论: π*0.6是世界模型增强的VLA模型,它结合了:

  • VLA的多模态理解能力(视觉+语言→动作)

  • 世界模型的预测与理解能力(价值函数+advantage估计)

这使得π*0.6不仅能够理解多模态输入并生成动作,还能够预测动作的未来影响,理解世界状态,并持续从经验中改进,从而实现了理解世界机制预测未来状态两大世界模型核心功能。


10. 总结与展望

10.1 核心贡献总结

π*0.6论文的核心贡献

  1. RECAP方法

    • 首个通用VLA模型真实世界RL训练框架

    • 支持异构数据融合

    • 支持迭代部署改进

  2. π*0.6模型

    • 基于π0.6的RL改进版本

    • 支持advantage conditioning

    • 可以结合价值函数改进策略

  3. 实际验证

    • 真实世界部署验证

    • 显著性能提升(2倍吞吐量)

    • 长时间连续运行

9.2 与之前VLA算法的关键差异

维度 之前VLA算法 π*0.6 关键创新
数据使用 单一来源 异构融合 ✅ 演示+自主+干预
学习方式 离线训练 在线学习 ✅ 部署中学习
策略改进 固定策略 动态改进 ✅ Advantage-conditioning
部署方式 一次性 迭代改进 ✅ 持续学习
性能验证 仿真为主 真实世界 ✅ 实际部署验证
性能提升 受限于演示 超越演示 ✅ 2倍吞吐量提升

9.3 未来展望

1. 方法改进

  • 更高效的数据收集策略

  • 更稳定的训练方法

  • 更智能的优势估计

2. 应用扩展

  • 更多任务类型

  • 更多机器人平台

  • 更多部署场景

3. 理论发展

  • 异构数据融合理论

  • 大模型RL训练理论

  • 真实世界持续学习理论


11. 参考文献

  1. π*0.6论文

  2. 相关VLA工作

    • RT-2 (Google DeepMind, 2023)

    • PaLM-E (Google, 2023)

    • OpenVLA (2024)

    • π0.5, π0.6 (Physical Intelligence, 2024)

  3. 相关RL工作

    • πRL (2024): Flow-based VLA在线RL微调

    • RLinf-VLA (2024): 统一VLA+RL训练框架

  4. 世界模型相关

    • World Models Survey (2024): Understanding World or Predicting Future? A Comprehensive Survey of World Models

    • arXiv: 2411.14499

    • 链接: https://arxiv.org/pdf/2411.14499

    • Dreamer系列: 基于模型的强化学习世界模型

    • World Models (2018): VAE-RNN架构的世界模型

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐