π*0.6论文创新点分析:对比传统VLA算法
1. **部署策略收集数据** → 2. **数据聚合与奖励标注** → 3. **微调价值函数** → 4. **计算Advantage值** → 5. **策略改进(Advantage Conditioning)** → 6. **性能评估与迭代决策**| **优势机制** | Flow-Noise | 标准RL | Advantage-conditioning | ✅ 更简单 || **策略
论文信息:
-
标题: π*0.6: a VLA That Learns From Experience
-
作者: Physical Intelligence团队(50+位作者)
目录
1. 执行摘要
1.1 核心贡献
π*0.6论文提出了RECAP方法,首次实现了通用VLA模型通过真实世界部署经验进行强化学习改进:
-
RECAP方法:RL with Experience and Corrections via Advantage-conditioned Policies
-
结合演示数据、自主经验数据和专家干预数据
-
通过advantage conditioning实现策略改进
-
支持从预训练到部署的端到端RL训练
-
-
π*0.6模型:基于π0.6的RL改进版本
-
增加了advantage conditioning能力
-
支持二值化advantage值作为条件输入
-
可以结合价值函数改进策略
-
-
实际部署验证:
-
在真实家庭中折叠衣物
-
可靠地组装纸箱
-
使用专业咖啡机制作意式咖啡
-
1.2 主要创新点总结
| 创新维度 | 传统VLA方法 | π*0.6方法 | 关键改进 |
|---|---|---|---|
| 训练数据 | 仅演示数据 | 演示+自主经验+专家干预 | ✅ 异构数据融合 |
| 学习方式 | 行为克隆/离线RL | 在线RL+优势条件化 | ✅ 从部署中学习 |
| 策略改进 | 固定策略 | Advantage-conditioned策略 | ✅ 动态策略优化 |
| 价值函数 | 无/简单奖励 | 细化的价值函数 | ✅ 精确优势估计 |
| 部署方式 | 一次性部署 | 迭代部署+在线改进 | ✅ 持续学习 |
| 性能提升 | 受限于演示 | 超越演示者 | ✅ 2倍吞吐量提升 |
1.3 技术突破意义
π*0.6论文首次证明了通用VLA模型可以通过真实世界经验显著改进:
-
✅ 异构数据融合:从"仅演示"到"演示+经验+干预"(数据多样性提升3倍)
-
✅ 在线学习能力:从"离线训练"到"部署中学习"(适应能力从60%→90%)
-
✅ 性能超越演示:从"模仿演示"到"超越演示"(吞吐量提升2倍+)
2. 研究背景与问题定义
2.1 VLA模型的发展历程
2.1.1 第一代VLA模型(行为克隆)
代表性工作:
-
RT-2 (Google DeepMind, 2023):基于视觉-语言模型的机器人控制
-
PaLM-E (Google, 2023):具身多模态语言模型
-
OpenVLA (2024):开源的视觉-语言-动作模型
-
π0.5 (Physical Intelligence, 2024):通用VLA模型
-
π0.6 (Physical Intelligence, 2024):改进的VLA模型(更大backbone、更多条件)
特点:
-
✅ 强大的多模态理解能力
-
✅ 良好的泛化性能
-
✅ 可以通过提示灵活指定任务
-
❌ 只能模仿演示数据
-
❌ 无法自主探索
-
❌ 难以超越演示者
-
❌ 无法从部署经验中学习
2.1.2 第二代VLA模型(离线RL)
代表性工作:
-
RLHF for Robotics:使用人类反馈进行强化学习
-
Fine-tuning VLMs with RL:使用RL微调视觉语言模型
-
πRL (2024):Flow-based VLA在线RL微调
特点:
-
✅ 可以从反馈中学习
-
✅ 可以优化长期回报
-
❌ 需要大量离线数据
-
❌ 无法在线适应
-
❌ 计算成本高
-
❌ 难以处理真实世界部署
2.1.3 第三代VLA模型(在线RL + 真实世界部署)
π*0.6论文的定位:首个实现通用VLA模型通过真实世界部署经验进行强化学习改进的方法
2.2 核心问题定义
2.2.1 问题1:如何从真实世界部署中学习?
挑战:
-
数据异构性:
-
演示数据(高质量但有限)
-
自主执行数据(大量但质量参差不齐)
-
专家干预数据(高质量但稀疏)
-
-
奖励信号:
-
真实世界奖励可能模糊或随机
-
稀疏奖励信号
-
需要人工标注或评估
-
-
部署成本:
-
真实机器人部署成本高
-
需要安全机制
-
难以频繁更新策略
-
2.2.2 问题2:如何稳定训练大模型?
挑战:
-
模型规模:
-
VLA模型参数量大(数十亿参数)
-
RL训练计算成本高
-
内存需求大
-
-
训练稳定性:
-
大模型微调容易过拟合
-
RL训练本身不稳定
-
两者结合更加困难
-
-
信任区域约束:
-
标准PPO clipping在扩散模型上难以实施
-
需要替代的约束方法
-
2.2.3 问题3:如何融合异构数据?
挑战:
-
数据分布差异:
-
不同来源数据分布不同
-
需要统一处理框架
-
-
数据质量差异:
-
演示数据质量高
-
自主数据质量参差不齐
-
需要智能采样策略
-
3. π*0.6核心创新点
3.1 创新点1:RECAP方法框架
3.1.1 核心思想
RECAP (RL with Experience and Corrections via Advantage-conditioned Policies) 是一个通用的VLA模型强化学习训练框架,支持从预训练到部署的端到端训练。
3.1.2 方法流程
1. 预训练阶段: - 使用离线RL在多样化多任务、多机器人数据集上预训练π*0.6 - 训练价值函数评估任务完成进度 - 使用advantage conditioning改进策略 2. 微调阶段: - 使用演示数据微调到下游任务 - 执行一个或多个迭代的在线数据收集 3. 部署阶段: - 收集自主执行数据 - 收集专家干预数据 - 使用奖励反馈训练价值函数 - 通过advantage conditioning改进策略
3.1.3 关键组件
1. Advantage Conditioning
-
将advantage值二值化为指示器(positive/negative)
-
作为条件输入到策略网络
-
使策略能够区分好动作和坏动作
2. 价值函数训练
-
在在线数据上微调价值函数
-
改进对动作如何影响性能的估计
-
使用更新后的advantage估计改进策略
3. 异构数据融合
-
统一处理演示数据、自主数据、干预数据
-
使用advantage值进行数据加权
-
智能采样策略
3.2 创新点2:π*0.6模型架构
3.2.1 模型改进
π*0.6基于π0.6的改进:
-
π0.6相比π0.5的改进:
-
更大的backbone
-
更多样化的条件输入
-
-
π*0.6相比π0.6的改进:
-
新增advantage conditioning能力
-
支持二值化advantage值作为条件
-
可以结合价值函数改进策略
-
3.2.2 Advantage Conditioning机制
技术细节:
1. 计算advantage值:
A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)
2. 二值化advantage:
I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ
I_t = 0 otherwise
3. 条件化策略:
π_θ(a_t | o_t, ℓ, I_t)
优势:
-
简单有效的策略改进机制
-
不需要复杂的策略梯度计算
-
可以处理异构数据
3.3 创新点3:SPO损失函数
3.3.1 问题背景
标准PPO clipping在扩散模型上的问题:
-
扩散模型使用无界扩散头建模动作
-
难以在离线设置中实施信任区域约束
-
标准PPO clipping目标不稳定
3.3.2 SPO损失函数
SPO (Soft Policy Optimization) 损失函数:
$$
\mathcal{L}_{SPO+C_{o} \nu L_{A}}(\theta) = \left\{\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{ar}}}\left[\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}-1\right]\right\}
$$
$$
+ \alpha\left\{\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{flow}}}\left[\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}-1\right]\right\}
$$
关键参数:
-
$\alpha$:自回归和flow-matching部分的权衡参数
-
$\epsilon_{\mathrm{ar}}$:自回归部分的信任区域参数
-
$\epsilon_{\mathrm{flow}}$:flow-matching部分的信任区域参数
优势:
-
更稳定的训练
-
适合离线RL设置
-
可以处理扩散模型
3.4 创新点4:CFG测试时策略改进
3.4.1 核心思想
在测试时使用Classifier-Free Guidance (CFG)进一步锐化策略,无需额外训练。
3.4.2 技术原理
锐化策略近似:
$$
\hat{\pi}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \propto \pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \left(\frac{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}\right)^{\beta}
$$
推理时使用梯度:
$$
\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) + \beta\left(\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)-\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)\right)
$$
参数设置:
-
$\beta \in [1.5, 2.5]$:适度的锐化设置
-
避免过度锐化导致动作分布超出学习支持范围
优势:
-
无需额外训练
-
可以灵活调整策略锐化程度
-
提高策略性能
3.5 创新点5:异构数据融合策略
3.5.1 数据来源
三种数据来源:
-
演示数据:
-
高质量人类演示
-
用于初始策略学习
-
数量有限但质量高
-
-
自主执行数据:
-
策略自主执行收集
-
数量大但质量参差不齐
-
包含成功和失败案例
-
-
专家干预数据:
-
专家在自主执行中的纠正
-
高质量但稀疏
-
用于纠正错误模式
-
3.5.2 融合策略
Algorithm 1: RECAP Training Pipeline
1. 预训练: - 在多样化数据集上训练π*0.6 - 训练价值函数V^π - 计算advantage值 2. 任务微调: - 使用演示数据微调到任务 - 迭代改进: a. 部署策略收集数据(自主+干预) b. 在在线数据上微调价值函数 c. 计算advantage值 d. 使用advantage conditioning改进策略
数据聚合策略:
-
使用advantage值进行数据加权
-
优先使用高advantage数据
-
平衡不同数据来源
4. 与传统VLA算法对比
4.1 与第一代VLA模型对比(RT-2, PaLM-E, OpenVLA, π0.6)
| 维度 | 第一代VLA | π*0.6 | 关键差异 |
|---|---|---|---|
| 训练方式 | 行为克隆 | 离线RL + 在线RL | ✅ 支持强化学习 |
| 数据来源 | 仅演示数据 | 演示+自主+干预 | ✅ 异构数据融合 |
| 学习能力 | 模仿学习 | 从经验中学习 | ✅ 超越演示者 |
| 部署方式 | 一次性部署 | 迭代部署改进 | ✅ 持续学习 |
| 性能上限 | 受限于演示 | 超越演示 | ✅ 2倍吞吐量提升 |
| 适应能力 | 固定策略 | 动态改进 | ✅ 适应新环境 |
4.2 与离线RL方法对比
| 维度 | 离线RL方法 | π*0.6 (RECAP) | 关键差异 |
|---|---|---|---|
| 数据收集 | 离线批量收集 | 在线迭代收集 | ✅ 部署中学习 |
| 策略更新 | 批量更新 | 迭代更新 | ✅ 持续改进 |
| 适应能力 | 无法适应新环境 | 适应新环境 | ✅ 在线适应 |
| 计算成本 | 高(批量处理) | 中等(迭代处理) | ✅ 更高效 |
| 部署成本 | 一次性高成本 | 分散到迭代中 | ✅ 成本可控 |
4.3 与其他VLA+RL方法对比(πRL, RLinf-VLA)
| 维度 | πRL | RLinf-VLA | π*0.6 (RECAP) | 关键差异 |
|---|---|---|---|---|
| 策略表示 | Flow-based | 多种支持 | Diffusion-based | 不同架构 |
| 训练方式 | 在线RL | 统一框架 | 离线+在线RL | ✅ 端到端 |
| 数据融合 | 单一来源 | 多种来源 | 异构数据 | ✅ 更全面 |
| 优势机制 | Flow-Noise | 标准RL | Advantage-conditioning | ✅ 更简单 |
| 部署验证 | 仿真为主 | 仿真为主 | 真实世界 | ✅ 实际部署 |
| 性能提升 | 仿真提升 | 仿真提升 | 2倍吞吐量 | ✅ 实际验证 |
4.4 核心差异总结
4.4.1 数据使用方式
传统方法:
-
仅使用演示数据
-
或仅使用离线收集的数据
-
数据来源单一
π*0.6方法:
-
✅ 融合演示、自主、干预三种数据
-
✅ 智能数据加权和采样
-
✅ 异构数据统一处理
4.4.2 学习机制
传统方法:
-
行为克隆:简单模仿
-
离线RL:批量学习
-
在线RL:需要频繁策略更新
π*0.6方法:
-
✅ Advantage-conditioning:简单有效的策略改进
-
✅ 价值函数微调:精确的优势估计
-
✅ 迭代部署:持续改进
4.4.3 部署方式
传统方法:
-
一次性部署
-
无法在线改进
-
需要重新训练才能适应
π*0.6方法:
-
✅ 迭代部署
-
✅ 在线数据收集
-
✅ 持续策略改进
5. RECAP方法详细分析
5.1 方法架构
┌─────────────────────────────────────────────────────────┐ │ RECAP Training Pipeline │ └─────────────────────────────────────────────────────────┘ 阶段1: 预训练(离线RL) ├── 输入: 多样化多任务、多机器人数据集 ├── 训练: π*0.6模型 + 价值函数V^π ├── 输出: 通用VLA模型 └── 特点: 大规模预训练,学习通用能力 阶段2: 任务微调(演示数据) ├── 输入: 任务特定演示数据 ├── 训练: 微调π*0.6到下游任务 ├── 输出: 任务特定策略 └── 特点: 快速适应新任务 阶段3: 迭代改进(在线RL) ├── 迭代1: │ ├── 部署策略收集数据(自主+干预) │ ├── 微调价值函数V^π │ ├── 计算advantage值 │ └── 使用advantage conditioning改进策略 ├── 迭代2: │ └── 重复迭代1过程 └── 迭代N: └── 持续改进直到满足性能要求
5.1.1 完整Pipeline流程图
┌─────────────────────────────────────────────────────────────────┐
│ RECAP完整训练Pipeline │
└─────────────────────────────────────────────────────────────────┘
【阶段1: 预训练(离线RL)】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 多样化多任务、多机器人数据集 D_pretrain │
│ │
│ 步骤1.1: 初始化π*0.6模型(基于π0.6架构) │
│ 步骤1.2: 训练价值函数 V^π(·) │
│ 步骤1.3: 计算advantage值 A^π(o_t, a_t) = Σr_t' - V^π(o_t) │
│ 步骤1.4: 使用SPO损失函数训练策略(advantage conditioning) │
│ │
│ 输出: 预训练模型 π*0.6_pretrain, V^π_pretrain │
└─────────────────────────────────────────────────────────────┘
↓
【阶段2: 任务微调(演示数据)】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 任务特定演示数据 D_demo = {(o_i, a_i, ℓ_i)} │
│ │
│ 步骤2.1: 使用演示数据微调π*0.6到下游任务 │
│ 步骤2.2: 行为克隆损失: L_BC = -log π_θ(a|o, ℓ) │
│ 步骤2.3: 可选:在演示数据上微调价值函数 │
│ │
│ 输出: 任务特定策略 π*0.6_task │
└─────────────────────────────────────────────────────────────┘
↓
【阶段3: 在线部署迭代改进(核心Pipeline)】
┌─────────────────────────────────────────────────────────────┐
│ FOR iteration = 1 to N: │
│ │
│ 【步骤3.1: 部署策略收集数据】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.1.1: 部署当前策略π*0.6_iter到真实机器人 │ │
│ │ 3.1.2: 收集自主执行数据 D_autonomous │ │
│ │ - 策略自主执行episode │ │
│ │ - 记录观察o_t、动作a_t、奖励r_t │ │
│ │ 3.1.3: 收集专家干预数据 D_correction │ │
│ │ - 专家在自主执行中的纠正 │ │
│ │ - 高质量但稀疏的纠正轨迹 │ │
│ │ 3.1.4: 评估策略性能(成功率、吞吐量等) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 【步骤3.2: 数据聚合与奖励标注】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.2.1: 合并异构数据 │ │
│ │ D_online = D_demo ∪ D_autonomous ∪ D_correction │ │
│ │ 3.2.2: 为每个episode计算奖励信号 │ │
│ │ - 任务完成奖励(稀疏) │ │
│ │ - 中间步骤奖励(可选) │ │
│ │ - 人工评估奖励(用于价值函数训练) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 【步骤3.3: 微调价值函数】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.3.1: 在在线数据D_online上微调价值函数V^π │ │
│ │ 3.3.2: 价值函数损失: │ │
│ │ L_V = (V^π(o_t) - R_t)^2 │ │
│ │ 其中 R_t = Σ_{t'=t}^T r_{t'} │ │
│ │ 3.3.3: 使用在线数据改进对任务完成进度的估计 │ │
│ │ 输出: 更新后的价值函数 V^π_iter │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 【步骤3.4: 计算Advantage值】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.4.1: 使用更新后的价值函数计算advantage │ │
│ │ A^π(o_t, a_t, ℓ) = │ │
│ │ Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - │ │
│ │ V^π(o_t) │ │
│ │ (N=50步前瞻,微调阶段) │ │
│ │ 3.4.2: 二值化advantage值 │ │
│ │ I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ │ │
│ │ I_t = 0 otherwise │ │
│ │ 3.4.3: 设置阈值ε_ℓ(约40%数据有正advantage) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 【步骤3.5: 策略改进(Advantage Conditioning)】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.5.1: 使用SPO损失函数训练策略 │ │
│ │ L_SPO = L_SPO_ar + α·L_SPO_flow │ │
│ │ 3.5.2: 策略输入条件化 │ │
│ │ π_θ(a_t | o_t, ℓ, I_t) │ │
│ │ - 当I_t=1时,策略学习产生高advantage动作 │ │
│ │ - 当I_t=0时,策略学习避免低advantage动作 │ │
│ │ 3.5.3: Conditioning Dropout(30%时间) │ │
│ │ - 支持CFG测试时策略改进 │ │
│ │ 3.5.4: 使用参考策略π_ref进行信任区域约束 │ │
│ │ 输出: 改进后的策略 π*0.6_{iter+1} │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 【步骤3.6: 性能评估与迭代决策】 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 3.6.1: 评估新策略性能 │ │
│ │ - 成功率、吞吐量、失败率等指标 │ │
│ │ 3.6.2: 判断是否继续迭代 │ │
│ │ - 如果性能提升显著,继续迭代 │ │
│ │ - 如果性能收敛,停止迭代 │ │
│ │ 3.6.3: 更新参考策略(可选) │ │
│ │ π_ref = π*0.6_{iter+1} │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ END FOR │
│ │
│ 输出: 最终改进策略 π*0.6_final │
└─────────────────────────────────────────────────────────────┘
↓
【阶段4: 测试时策略改进(可选)】
┌─────────────────────────────────────────────────────────────┐
│ 使用Classifier-Free Guidance (CFG)进一步锐化策略 │
│ │
│ 步骤4.1: 计算CFG梯度 │
│ ∇_a log π_θ(a|o, ℓ) + │
│ β(∇_a log π_θ(a|I=1, o, ℓ) - │
│ ∇_a log π_θ(a|o, ℓ)) │
│ │
│ 步骤4.2: 使用梯度引导采样(β ∈ [1.5, 2.5]) │
│ │
│ 输出: 锐化后的策略(无需额外训练) │
└─────────────────────────────────────────────────────────────┘
5.2 Advantage Estimation
5.2.1 预训练阶段
优势估计公式:
$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=0}^{T} r_{t}^{\prime} - V^{\pi}\left(\mathbf{o}_{t}\right)
$$
特点:
-
使用整个episode的回报
-
$N = T$(episode长度)
-
高方差估计但适合大规模预训练
-
单次价值函数推理即可计算
5.2.2 微调阶段
优势估计公式:
$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=t}^{t+N-1} r_{t}^{\prime} + V^{\pi}\left(\mathbf{o}_{t+N}\right) - V^{\pi}\left(\mathbf{o}_{t}\right)
$$
特点:
-
使用N步前瞻($N=50$)
-
结合即时奖励和未来价值
-
低方差估计
-
适合精细调优
5.3 Advantage Conditioning机制
5.3.1 二值化过程
Advantage阈值设置:
-
预训练阶段:
-
对每个任务选择阈值$\epsilon_{\ell}$
-
使得约30%的演示数据有正advantage
-
基于10k随机样本计算
-
-
微调阶段:
-
一般设置:约40%的评估rollout有正advantage
-
特殊情况(如T恤和短裤折叠):
-
高质量演示数据产生慢但成功率高的策略
-
提高阈值使得仅约10%的数据有正advantage
-
-
5.3.2 Conditioning Dropout
训练时随机dropout:
-
30%的时间随机dropout advantage conditioning
-
目的:
-
可以直接从条件或无条件策略采样
-
支持CFG进行测试时策略改进
-
有效替代损失乘数$\alpha$
-
5.4 在线部署训练Pipeline算法伪代码
5.4.1 RECAP算法伪代码
# Algorithm 1: RECAP Training Pipeline
# 输入: 预训练模型π*0.6_pretrain, 价值函数V^π_pretrain
# 任务演示数据D_demo, 任务描述ℓ
def RECAP_Training_Pipeline(π_pretrain, V_pretrain, D_demo, ℓ):
# 阶段1: 任务微调(演示数据)
π_task = FineTune_On_Demo(π_pretrain, D_demo, ℓ)
V_task = FineTune_ValueFunction(V_pretrain, D_demo, ℓ)
# 阶段2: 在线部署迭代改进
π_current = π_task
V_current = V_task
D_accumulated = D_demo # 累积所有数据
for iteration in range(1, N_max_iterations + 1):
# 步骤1: 部署策略收集数据
D_autonomous, D_correction = Deploy_And_Collect(
π_current,
num_episodes_autonomous,
num_episodes_correction
)
# 步骤2: 数据聚合
D_online = D_accumulated ∪ D_autonomous ∪ D_correction
# 步骤3: 计算奖励信号
for episode in D_online:
episode.rewards = Compute_Rewards(episode, ℓ)
# 稀疏奖励:任务完成时r_T=1,否则r_t=0
# 或使用人工评估奖励
# 步骤4: 微调价值函数
V_updated = FineTune_ValueFunction(
V_current,
D_online,
loss_fn=MSELoss, # L_V = (V^π(o_t) - R_t)^2
epochs=value_function_epochs
)
# 步骤5: 计算Advantage值
for episode in D_online:
for t in range(len(episode)):
# N步前瞻advantage估计
N = 50 # 微调阶段
R_t = sum(episode.rewards[t:t+N])
V_future = V_updated(episode.observations[t+N])
V_current = V_updated(episode.observations[t])
episode.advantages[t] = R_t + V_future - V_current
# 二值化advantage
ε_ℓ = Compute_Threshold(D_online, ℓ) # 约40%正advantage
episode.I_t[t] = 1 if episode.advantages[t] > ε_ℓ else 0
# 步骤6: 策略改进(Advantage Conditioning)
π_updated = Train_Policy_With_SPO(
π_current,
D_online,
V_updated,
reference_policy=π_task, # 或π_current
advantage_conditioning=True,
conditioning_dropout_rate=0.3
)
# 步骤7: 性能评估
performance = Evaluate_Policy(π_updated, ℓ)
print(f"Iteration {iteration}: Success Rate = {performance.success_rate}, "
f"Throughput = {performance.throughput}")
# 步骤8: 判断是否继续迭代
if performance.improvement < threshold or iteration >= N_max_iterations:
break
# 更新当前策略和价值函数
π_current = π_updated
V_current = V_updated
D_accumulated = D_online
return π_current, V_current
5.4.2 关键函数详细实现
1. 部署与数据收集函数:
def Deploy_And_Collect(π, num_autonomous, num_correction):
"""
部署策略到真实机器人并收集数据
"""
D_autonomous = []
D_correction = []
# 收集自主执行数据
for i in range(num_autonomous):
episode = []
observation = env.reset()
while not env.is_done():
# 策略采样动作
action = π.sample(observation, task_description)
next_obs, reward, done = env.step(action)
episode.append({
'observation': observation,
'action': action,
'reward': reward,
'done': done
})
observation = next_obs
D_autonomous.append(episode)
# 收集专家干预数据
for i in range(num_correction):
episode = []
observation = env.reset()
expert_intervened = False
while not env.is_done():
# 策略采样动作
action_policy = π.sample(observation, task_description)
# 专家可以干预纠正
if expert.should_intervene(observation, action_policy):
action = expert.correct(observation, action_policy)
expert_intervened = True
else:
action = action_policy
next_obs, reward, done = env.step(action)
episode.append({
'observation': observation,
'action': action,
'action_policy': action_policy,
'expert_intervened': expert_intervened,
'reward': reward,
'done': done
})
observation = next_obs
D_correction.append(episode)
return D_autonomous, D_correction
2. SPO损失函数训练策略:
def Train_Policy_With_SPO(π, D, V, reference_policy, advantage_conditioning=True, conditioning_dropout_rate=0.3): """ 使用SPO损失函数训练策略 """ optimizer = Adam(π.parameters(), lr=policy_lr) for epoch in range(policy_epochs): for batch in DataLoader(D, batch_size=batch_size): observations = batch['observations'] actions = batch['actions'] advantages = batch['advantages'] I_t = batch['I_t'] # 二值化advantage指示器 # Conditioning Dropout if random.random() < conditioning_dropout_rate: I_t = None # 无条件训练 # 计算策略损失 if advantage_conditioning and I_t is not None: # 条件策略: π(a|o, ℓ, I_t) log_prob = π.log_prob(actions, observations, task_description, I_t) else: # 无条件策略: π(a|o, ℓ) log_prob = π.log_prob(actions, observations, task_description) # 参考策略概率 with torch.no_grad(): log_prob_ref = reference_policy.log_prob( actions, observations, task_description ) # SPO损失函数 ratio = torch.exp(log_prob - log_prob_ref) # 自回归部分损失 L_ar = (ratio * advantages - abs(advantages) / (2 * ε_ar) * (ratio - 1).clamp(min=0)) # Flow-matching部分损失 L_flow = (ratio * advantages - abs(advantages) / (2 * ε_flow) * (ratio - 1).clamp(min=0)) # 总损失 loss = -L_ar.mean() - α * L_flow.mean() # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() return π
5.4.3 不同任务的数据收集策略
1. 衣物折叠(T恤和短裤):
-
仅使用自主评估数据(无专家纠正)
-
原因:模型性能接近专家速度,难以提供纠正
-
收集:300个episode,4个机器人站
-
迭代次数:通常1-2次迭代即可达到性能上限
2. 多样化衣物折叠:
-
450个评估episode
-
287个纠正episode
-
结合自主和纠正数据
-
迭代次数:2-3次迭代
3. 纸箱组装:
-
部署场景中直接收集
-
每轮迭代:600个演示 + 360个纠正episode
-
使用3个机器人
-
迭代次数:多次迭代,持续改进
4. 咖啡制作:
-
单次迭代
-
429个纠正episode
-
414个自主episode
-
迭代次数:通常1次迭代即可显著提升
5.4.4 数据聚合与采样策略
数据聚合原则:
-
保留所有演示数据:演示数据始终包含在训练集中
-
累积在线数据:每次迭代的新数据累积到总数据集中
-
智能采样:根据advantage值进行加权采样
-
高advantage数据权重更高
-
平衡不同数据来源(演示、自主、干预)
-
采样策略:
def Sample_Training_Batch(D_accumulated, batch_size): """ 智能采样训练批次 """ # 计算每个样本的采样权重 weights = [] for episode in D_accumulated: for step in episode: # 基于advantage值计算权重 advantage = step['advantage'] weight = max(0, advantage) + 0.1 # 确保所有样本有最小权重 weights.append(weight) # 归一化权重 weights = np.array(weights) weights = weights / weights.sum() # 加权采样 indices = np.random.choice(len(weights), size=batch_size, p=weights) return [D_accumulated[i] for i in indices]
5.4.5 迭代停止条件
停止条件判断:
-
性能提升阈值:如果连续2次迭代性能提升 < 5%,停止迭代
-
最大迭代次数:达到预设的最大迭代次数(如5次)
-
性能收敛:性能指标(成功率、吞吐量)达到目标值
-
资源限制:达到时间或计算资源限制
性能评估指标:
-
成功率:任务完成的episode比例
-
吞吐量:单位时间内完成的任务数量
-
失败率:任务失败的episode比例
-
平均episode长度:完成任务的平均步数
5.5 在线部署训练Pipeline关键要点总结
5.5.1 Pipeline核心流程
在线部署训练提升的Pipeline包含以下6个关键步骤(每次迭代):
-
部署策略收集数据 → 2. 数据聚合与奖励标注 → 3. 微调价值函数 → 4. 计算Advantage值 → 5. 策略改进(Advantage Conditioning) → 6. 性能评估与迭代决策
5.5.2 关键技术要点
| 技术要点 | 详细说明 | 创新性 |
|---|---|---|
| 异构数据融合 | 统一处理演示、自主、干预三种数据源 | ✅ 首次实现三种数据源统一训练 |
| Advantage Conditioning | 二值化advantage作为策略条件输入 | ✅ 简单有效的策略改进机制 |
| 价值函数微调 | 在在线数据上持续改进价值估计 | ✅ 精确的优势估计 |
| SPO损失函数 | 适合扩散模型的信任区域约束 | ✅ 稳定的大模型RL训练 |
| 迭代部署 | 真实世界持续学习和改进 | ✅ 首次真实世界验证 |
| CFG测试时改进 | 无需额外训练的策略锐化 | ✅ 灵活的性能提升 |
5.5.3 Pipeline数据流
真实世界部署 ↓ [自主执行数据] + [专家干预数据] ↓ 数据聚合 (D_online = D_demo ∪ D_autonomous ∪ D_correction) ↓ 奖励标注 (稀疏奖励或人工评估) ↓ 价值函数微调 (V^π更新) ↓ Advantage计算 (N步前瞻,二值化) ↓ 策略改进 (SPO损失 + Advantage Conditioning) ↓ 性能评估 ↓ 迭代决策 (继续/停止)
5.5.4 与传统方法的Pipeline对比
| 阶段 | 传统VLA方法 | π*0.6 RECAP方法 |
|---|---|---|
| 预训练 | 行为克隆,仅演示数据 | 离线RL,多样化数据 |
| 任务适应 | 演示数据微调 | 演示数据微调 + 价值函数训练 |
| 部署 | 一次性部署,无法改进 | 迭代部署,持续改进 |
| 数据收集 | 无 | 自主执行 + 专家干预 |
| 策略更新 | 无 | 价值函数微调 + Advantage Conditioning |
| 性能提升 | 受限于演示 | 超越演示,2倍吞吐量提升 |
5.5.5 Pipeline实际部署经验
关键成功因素:
-
数据收集策略:
-
平衡自主执行和专家干预数据
-
根据任务特点调整数据收集比例
-
确保数据质量和多样性
-
-
价值函数训练:
-
在在线数据上持续微调
-
使用准确的奖励信号
-
避免过拟合
-
-
Advantage阈值设置:
-
预训练阶段:约30%正advantage
-
微调阶段:约40%正advantage
-
特殊情况:可调整到10%(高质量演示)
-
-
迭代策略:
-
通常1-3次迭代即可显著提升
-
根据性能提升决定是否继续
-
避免过度迭代导致过拟合
-
-
真实世界部署:
-
需要安全机制
-
支持专家实时干预
-
监控策略性能
-
实际部署效果:
-
✅ 衣物折叠:2倍吞吐量提升,2小时+连续运行
-
✅ 纸箱组装:可靠性显著提升,可用于实际工厂
-
✅ 咖啡制作:13小时+连续运行,高成功率
6. 技术突破分析
6.1 突破1:异构数据融合
6.1.1 技术挑战
问题:
-
不同数据来源分布不同
-
数据质量差异大
-
需要统一处理框架
解决方案:
-
✅ Advantage值作为统一指标
-
✅ 智能数据加权
-
✅ 统一训练流程
6.1.2 创新点
首次实现:
-
演示数据、自主数据、干预数据的统一融合
-
通过advantage值进行智能加权
-
支持迭代改进
6.2 突破2:稳定的大模型RL训练
6.2.1 技术挑战
问题:
-
标准PPO clipping在扩散模型上不稳定
-
大模型微调容易过拟合
-
离线RL设置难以实施信任区域约束
解决方案:
-
✅ SPO损失函数替代标准PPO
-
✅ 分离的自回归和flow-matching信任区域参数
-
✅ 稳定的训练流程
6.2.2 创新点
SPO损失函数:
-
适合扩散模型的信任区域约束
-
分离处理自回归和flow-matching部分
-
稳定的离线RL训练
6.3 突破3:真实世界部署验证
6.3.1 技术挑战
问题:
-
真实世界部署成本高
-
需要安全机制
-
难以频繁更新策略
解决方案:
-
✅ 迭代部署策略
-
✅ 在线数据收集
-
✅ 持续策略改进
6.3.2 创新点
首次实现:
-
通用VLA模型在真实世界的持续学习
-
从部署经验中显著改进性能
-
实际验证的性能提升(2倍吞吐量)
7. 实验验证与性能提升
7.1 实验任务
7.1.1 任务1:衣物折叠
任务描述:
-
在真实家庭中折叠多样化的衣物
-
包括T恤、短裤、长裤等
-
处理真实世界的变异性
性能提升:
-
✅ 吞吐量提升:2倍+
-
✅ 失败率降低:50%+
-
✅ 连续运行:2小时+无中断
7.1.2 任务2:纸箱组装
任务描述:
-
可靠地组装纸箱
-
处理真实包装场景
-
处理纸箱粘连和弯曲等挑战
性能提升:
-
✅ 可靠性显著提升
-
✅ 可用于实际工厂包装
7.1.3 任务3:意式咖啡制作
任务描述:
-
使用专业咖啡机制作意式咖啡
-
处理液体倾倒等复杂操作
-
处理真实咖啡机的变异性
性能提升:
-
✅ 连续运行:13小时+
-
✅ 高成功率
-
✅ 实际可用性验证
7.2 性能提升总结
| 任务 | 吞吐量提升 | 失败率降低 | 连续运行时间 |
|---|---|---|---|
| 衣物折叠 | 2倍+ | 50%+ | 2小时+ |
| 纸箱组装 | 显著提升 | 显著降低 | 实际部署 |
| 咖啡制作 | 显著提升 | 显著降低 | 13小时+ |
7.3 关键成果
1. 实用性验证:
-
✅ 真实世界部署
-
✅ 长时间连续运行
-
✅ 实际应用场景
2. 性能超越演示:
-
✅ 吞吐量超越人类演示者
-
✅ 失败率低于初始策略
-
✅ 适应新环境能力
3. 持续学习能力:
-
✅ 从部署经验中学习
-
✅ 迭代改进策略
-
✅ 适应新场景
8. 应用价值与影响
8.1 理论贡献
1. 方法创新:
-
RECAP方法框架
-
Advantage-conditioning机制
-
SPO损失函数
2. 理论突破:
-
异构数据融合理论
-
大模型RL训练稳定性
-
真实世界持续学习
8.2 实践价值
1. 实际应用:
-
真实世界机器人部署
-
持续学习和改进
-
超越人类演示者
2. 工程价值:
-
可扩展的训练流程
-
稳定的训练方法
-
实用的部署策略
8.3 影响范围
1. 学术影响:
-
开创VLA模型真实世界RL训练
-
提供通用训练框架
-
推动领域发展
2. 工业影响:
-
实际机器人应用
-
降低部署成本
-
提高系统性能
9. π*0.6作为世界模型+VLA的深度分析
9.1 为什么说π*0.6是世界模型+VLA的模型?
根据世界模型综述论文(arXiv:2411.14499)的定义,世界模型具有两大核心功能:
-
理解世界机制:构建内部表示以理解环境的运作规律
-
预测未来状态:预测环境的动态变化以指导决策
π*0.6不仅是一个VLA模型,更是一个世界模型增强的VLA模型,因为它同时具备VLA的多模态理解能力和世界模型的预测与理解能力。
9.2 π*0.6中的世界模型特征
9.2.1 价值函数作为世界模型的核心组件
世界模型定义(根据综述论文):
-
世界模型是智能体对环境的内部表示或模拟
-
用于预测环境的动态和结果
-
支持决策和规划
π*0.6中的价值函数V^π:
V^π(o_t) = E[Σ_{t'=t}^T r_{t'} | o_t, π]
世界模型特征体现:
-
内部世界表示:
-
价值函数V^π学习了对世界状态的内部表示
-
能够评估当前观察o_t对应的世界状态价值
-
理解任务完成进度和世界状态
-
-
未来状态预测:
-
通过N步前瞻advantage估计预测未来:
A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t) -
预测执行动作a_t后未来N步的回报
-
评估动作对世界状态的影响
-
-
持续学习与改进:
-
在在线数据上持续微调价值函数
-
改进对世界动态的理解
-
适应真实世界的变异性
-
9.2.2 Advantage估计作为预测机制
Advantage估计公式:
A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)
世界模型预测特征:
-
N步前瞻预测:
-
预测未来N步(N=50)的回报
-
结合即时奖励和未来价值
-
类似于世界模型的前向预测
-
-
动作影响评估:
-
评估动作a_t对未来世界状态的影响
-
预测动作的长期后果
-
支持基于模型的规划
-
-
不确定性处理:
-
通过价值函数的不确定性量化预测置信度
-
处理真实世界的随机性
-
9.2.3 从经验中学习世界动态
世界模型学习特征(参考Dreamer系列):
-
从经验数据中学习环境动态
-
构建对世界的内部表示
-
持续改进对世界的理解
π*0.6的学习机制:
-
异构数据融合:
-
从演示、自主执行、专家干预数据中学习
-
理解不同场景下的世界动态
-
构建更全面的世界表示
-
-
在线学习:
-
在真实世界部署中持续学习
-
适应新环境和新任务
-
改进对世界动态的理解
-
-
价值函数微调:
-
在在线数据上微调价值函数
-
改进对任务完成进度的估计
-
更准确地预测未来状态
-
9.3 π*0.6中的VLA模型特征
9.3.1 多模态理解能力
VLA模型定义:
-
Vision-Language-Action模型
-
结合视觉、语言、动作三种模态
-
从视觉和语言输入生成动作
π*0.6的VLA架构:
输入: 观察o_t(视觉) + 任务描述ℓ(语言) 输出: 动作a_t(动作) 模型: π_θ(a_t | o_t, ℓ, I_t)
VLA特征体现:
-
视觉理解:
-
处理高维视觉输入(图像/视频)
-
理解场景、物体、空间关系
-
基于π0.6的强大视觉编码器
-
-
语言理解:
-
理解任务描述ℓ
-
支持自然语言指令
-
灵活的任务指定
-
-
动作生成:
-
生成连续动作序列
-
支持复杂操作任务
-
Diffusion-based动作生成
-
9.3.2 多模态条件化
条件化策略:
π_θ(a_t | o_t, ℓ, I_t)
多模态条件:
-
视觉条件:o_t(当前观察)
-
语言条件:ℓ(任务描述)
-
世界模型条件:I_t(advantage指示器,来自价值函数)
9.4 世界模型+VLA的融合架构
9.4.1 整体架构
┌─────────────────────────────────────────────────────────┐
│ π*0.6: 世界模型增强的VLA架构 │
└─────────────────────────────────────────────────────────┘
【VLA组件】
├── 视觉编码器: o_t → 视觉特征
├── 语言编码器: ℓ → 语言特征
└── 动作解码器: [视觉特征, 语言特征, I_t] → a_t
【世界模型组件】
├── 价值函数: V^π(o_t) → 状态价值
├── Advantage估计: A^π(o_t, a_t, ℓ) → 动作优势
└── 未来预测: V^π(o_{t+N}) → 未来状态价值
【融合机制】
├── Advantage Conditioning: I_t = sign(A^π) → 策略条件
├── 价值函数微调: 在在线数据上改进V^π
└── 策略改进: 使用advantage conditioning改进策略
9.4.2 世界模型与VLA的协同
1. 世界模型增强VLA决策:
-
价值函数提供世界状态评估
-
Advantage估计提供动作质量评估
-
指导VLA生成更好的动作
2. VLA增强世界模型学习:
-
VLA的多模态理解能力帮助理解世界状态
-
视觉和语言信息丰富世界表示
-
动作执行提供世界动态数据
3. 端到端学习:
-
世界模型和VLA联合训练
-
相互促进,共同改进
-
从预训练到部署的端到端优化
9.5 与世界模型发展脉络的对应
9.5.1 与世界模型分类的对应
根据世界模型综述论文的分类:
| 世界模型类型 | π*0.6中的体现 |
|---|---|
| 理解型世界模型 | 价值函数V^π学习世界状态表示,理解任务完成进度 |
| 预测型世界模型 | Advantage估计预测未来N步回报,评估动作影响 |
| 基于模型的RL | 使用价值函数和advantage进行策略改进 |
| 多模态世界模型 | 结合视觉、语言、动作三种模态 |
9.5.2 与世界模型发展阶段的对应
2024年多模态世界模型时代(根据世界模型发展脉络):
-
多模态融合(视觉+语言+动作)✅
-
大规模预训练 ✅
-
真实世界部署 ✅
-
持续学习 ✅
π*0.6的定位:
-
属于2024年多模态世界模型时代的产物
-
结合了VLA的多模态能力和世界模型的预测能力
-
在真实世界中验证了世界模型+VLA的可行性
9.6 与传统世界模型的对比
9.6.1 与传统世界模型的差异
| 特征 | 传统世界模型(如Dreamer) | π*0.6(世界模型+VLA) |
|---|---|---|
| 输入模态 | 仅视觉 | 视觉+语言 |
| 动作空间 | 低维连续动作 | 高维复杂动作序列 |
| 任务指定 | 固定任务 | 自然语言任务描述 |
| 泛化能力 | 任务特定 | 多任务泛化 |
| 部署方式 | 仿真为主 | 真实世界部署 |
| 学习方式 | 梦境训练 | 在线RL+真实世界学习 |
9.6.2 与传统VLA模型的差异
| 特征 | 传统VLA(如RT-2, π0.6) | π*0.6(世界模型+VLA) |
|---|---|---|
| 世界模型 | 无 | 价值函数V^π |
| 未来预测 | 无 | N步前瞻advantage |
| 策略改进 | 行为克隆 | Advantage conditioning |
| 学习方式 | 离线训练 | 在线RL+持续学习 |
| 性能上限 | 受限于演示 | 超越演示者 |
9.7 世界模型+VLA的创新意义
9.7.1 理论创新
首次实现:
-
✅ 通用VLA模型与世界模型的深度融合
-
✅ 价值函数作为世界模型组件指导VLA决策
-
✅ 真实世界持续学习的世界模型+VLA系统
9.7.2 技术突破
关键技术:
-
Advantage Conditioning:
-
将世界模型的预测(advantage)作为VLA的条件
-
实现世界模型与VLA的深度融合
-
-
价值函数微调:
-
在在线数据上持续改进世界模型
-
适应真实世界的变异性
-
-
异构数据融合:
-
从多种数据源学习世界动态
-
构建更全面的世界表示
-
9.7.3 应用价值
实际应用:
-
✅ 真实世界机器人部署
-
✅ 持续学习和改进
-
✅ 超越人类演示者
-
✅ 多任务泛化
9.8 总结:π*0.6作为世界模型+VLA的证据
核心证据:
-
世界模型特征:
-
✅ 价值函数V^π作为世界状态表示
-
✅ N步前瞻advantage估计作为未来预测
-
✅ 从经验中持续学习世界动态
-
✅ 支持基于模型的决策
-
-
VLA模型特征:
-
✅ 视觉-语言-动作多模态架构
-
✅ 自然语言任务指定
-
✅ 复杂动作序列生成
-
✅ 多任务泛化能力
-
-
融合创新:
-
✅ Advantage conditioning实现深度融合
-
✅ 端到端联合训练
-
✅ 真实世界验证
-
结论: π*0.6是世界模型增强的VLA模型,它结合了:
-
VLA的多模态理解能力(视觉+语言→动作)
-
世界模型的预测与理解能力(价值函数+advantage估计)
这使得π*0.6不仅能够理解多模态输入并生成动作,还能够预测动作的未来影响,理解世界状态,并持续从经验中改进,从而实现了理解世界机制和预测未来状态两大世界模型核心功能。
10. 总结与展望
10.1 核心贡献总结
π*0.6论文的核心贡献:
-
RECAP方法:
-
首个通用VLA模型真实世界RL训练框架
-
支持异构数据融合
-
支持迭代部署改进
-
-
π*0.6模型:
-
基于π0.6的RL改进版本
-
支持advantage conditioning
-
可以结合价值函数改进策略
-
-
实际验证:
-
真实世界部署验证
-
显著性能提升(2倍吞吐量)
-
长时间连续运行
-
9.2 与之前VLA算法的关键差异
| 维度 | 之前VLA算法 | π*0.6 | 关键创新 |
|---|---|---|---|
| 数据使用 | 单一来源 | 异构融合 | ✅ 演示+自主+干预 |
| 学习方式 | 离线训练 | 在线学习 | ✅ 部署中学习 |
| 策略改进 | 固定策略 | 动态改进 | ✅ Advantage-conditioning |
| 部署方式 | 一次性 | 迭代改进 | ✅ 持续学习 |
| 性能验证 | 仿真为主 | 真实世界 | ✅ 实际部署验证 |
| 性能提升 | 受限于演示 | 超越演示 | ✅ 2倍吞吐量提升 |
9.3 未来展望
1. 方法改进:
-
更高效的数据收集策略
-
更稳定的训练方法
-
更智能的优势估计
2. 应用扩展:
-
更多任务类型
-
更多机器人平台
-
更多部署场景
3. 理论发展:
-
异构数据融合理论
-
大模型RL训练理论
-
真实世界持续学习理论
11. 参考文献
-
π*0.6论文:
-
标题: π*0.6: a VLA That Learns From Experience
-
-
相关VLA工作:
-
RT-2 (Google DeepMind, 2023)
-
PaLM-E (Google, 2023)
-
OpenVLA (2024)
-
π0.5, π0.6 (Physical Intelligence, 2024)
-
-
相关RL工作:
-
πRL (2024): Flow-based VLA在线RL微调
-
RLinf-VLA (2024): 统一VLA+RL训练框架
-
-
世界模型相关:
-
World Models Survey (2024): Understanding World or Predicting Future? A Comprehensive Survey of World Models
-
arXiv: 2411.14499
-
Dreamer系列: 基于模型的强化学习世界模型
-
World Models (2018): VAE-RNN架构的世界模型
-
更多推荐

所有评论(0)