π*0.6论文创新点分析：对比传统VLA算法

1. **部署策略收集数据** → 2. **数据聚合与奖励标注** → 3. **微调价值函数** → 4. **计算Advantage值** → 5. **策略改进（Advantage Conditioning）** → 6. **性能评估与迭代决策**| **优势机制** | Flow-Noise | 标准RL | Advantage-conditioning | ✅ 更简单 || **策略

铮铭

917人浏览 · 2025-11-19 14:25:08

铮铭 · 2025-11-19 14:25:08 发布

论文信息:

标题: π*0.6: a VLA That Learns From Experience
作者: Physical Intelligence团队（50+位作者）
原始链接: https://www.pi.website/download/pistar06.pdf
博客链接: https://pi.website/blog/pistar06

1. 执行摘要

1.1 核心贡献

π*0.6论文提出了RECAP方法，首次实现了通用VLA模型通过真实世界部署经验进行强化学习改进：

RECAP方法：RL with Experience and Corrections via Advantage-conditioned Policies
- 结合演示数据、自主经验数据和专家干预数据
- 通过advantage conditioning实现策略改进
- 支持从预训练到部署的端到端RL训练
π*0.6模型：基于π0.6的RL改进版本
- 增加了advantage conditioning能力
- 支持二值化advantage值作为条件输入
- 可以结合价值函数改进策略
实际部署验证：
- 在真实家庭中折叠衣物
- 可靠地组装纸箱
- 使用专业咖啡机制作意式咖啡

1.2 主要创新点总结

创新维度	传统VLA方法	π*0.6方法	关键改进
训练数据	仅演示数据	演示+自主经验+专家干预	✅ 异构数据融合
学习方式	行为克隆/离线RL	在线RL+优势条件化	✅ 从部署中学习
策略改进	固定策略	Advantage-conditioned策略	✅ 动态策略优化
价值函数	无/简单奖励	细化的价值函数	✅ 精确优势估计
部署方式	一次性部署	迭代部署+在线改进	✅ 持续学习
性能提升	受限于演示	超越演示者	✅ 2倍吞吐量提升

1.3 技术突破意义

π*0.6论文首次证明了通用VLA模型可以通过真实世界经验显著改进：

✅ 异构数据融合：从"仅演示"到"演示+经验+干预"（数据多样性提升3倍）
✅ 在线学习能力：从"离线训练"到"部署中学习"（适应能力从60%→90%）
✅ 性能超越演示：从"模仿演示"到"超越演示"（吞吐量提升2倍+）

2. 研究背景与问题定义

2.1 VLA模型的发展历程

2.1.1 第一代VLA模型（行为克隆）

代表性工作：

RT-2 (Google DeepMind, 2023)：基于视觉-语言模型的机器人控制
PaLM-E (Google, 2023)：具身多模态语言模型
OpenVLA (2024)：开源的视觉-语言-动作模型
π0.5 (Physical Intelligence, 2024)：通用VLA模型
π0.6 (Physical Intelligence, 2024)：改进的VLA模型（更大backbone、更多条件）

特点：

✅ 强大的多模态理解能力
✅ 良好的泛化性能
✅ 可以通过提示灵活指定任务
❌ 只能模仿演示数据
❌ 无法自主探索
❌ 难以超越演示者
❌ 无法从部署经验中学习

2.1.2 第二代VLA模型（离线RL）

代表性工作：

RLHF for Robotics：使用人类反馈进行强化学习
Fine-tuning VLMs with RL：使用RL微调视觉语言模型
πRL (2024)：Flow-based VLA在线RL微调

特点：

✅ 可以从反馈中学习
✅ 可以优化长期回报
❌ 需要大量离线数据
❌ 无法在线适应
❌ 计算成本高
❌ 难以处理真实世界部署

2.1.3 第三代VLA模型（在线RL + 真实世界部署）

π*0.6论文的定位：首个实现通用VLA模型通过真实世界部署经验进行强化学习改进的方法

2.2 核心问题定义

2.2.1 问题1：如何从真实世界部署中学习？

挑战：

数据异构性：
- 演示数据（高质量但有限）
- 自主执行数据（大量但质量参差不齐）
- 专家干预数据（高质量但稀疏）
奖励信号：
- 真实世界奖励可能模糊或随机
- 稀疏奖励信号
- 需要人工标注或评估
部署成本：
- 真实机器人部署成本高
- 需要安全机制
- 难以频繁更新策略

2.2.2 问题2：如何稳定训练大模型？

挑战：

模型规模：
- VLA模型参数量大（数十亿参数）
- RL训练计算成本高
- 内存需求大
训练稳定性：
- 大模型微调容易过拟合
- RL训练本身不稳定
- 两者结合更加困难
信任区域约束：
- 标准PPO clipping在扩散模型上难以实施
- 需要替代的约束方法

2.2.3 问题3：如何融合异构数据？

挑战：

数据分布差异：
- 不同来源数据分布不同
- 需要统一处理框架
数据质量差异：
- 演示数据质量高
- 自主数据质量参差不齐
- 需要智能采样策略

3. π*0.6核心创新点

3.1 创新点1：RECAP方法框架

3.1.1 核心思想

RECAP (RL with Experience and Corrections via Advantage-conditioned Policies) 是一个通用的VLA模型强化学习训练框架，支持从预训练到部署的端到端训练。

3.1.2 方法流程

1. 预训练阶段：
   - 使用离线RL在多样化多任务、多机器人数据集上预训练π*0.6
   - 训练价值函数评估任务完成进度
   - 使用advantage conditioning改进策略

2. 微调阶段：
   - 使用演示数据微调到下游任务
   - 执行一个或多个迭代的在线数据收集

3. 部署阶段：
   - 收集自主执行数据
   - 收集专家干预数据
   - 使用奖励反馈训练价值函数
   - 通过advantage conditioning改进策略

3.1.3 关键组件

1. Advantage Conditioning

将advantage值二值化为指示器（positive/negative）
作为条件输入到策略网络
使策略能够区分好动作和坏动作

2. 价值函数训练

在在线数据上微调价值函数
改进对动作如何影响性能的估计
使用更新后的advantage估计改进策略

3. 异构数据融合

统一处理演示数据、自主数据、干预数据
使用advantage值进行数据加权
智能采样策略

3.2 创新点2：π*0.6模型架构

3.2.1 模型改进

π*0.6基于π0.6的改进：

π0.6相比π0.5的改进：
- 更大的backbone
- 更多样化的条件输入
π*0.6相比π0.6的改进：
- 新增advantage conditioning能力
- 支持二值化advantage值作为条件
- 可以结合价值函数改进策略

3.2.2 Advantage Conditioning机制

技术细节：

1. 计算advantage值：
   A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)

2. 二值化advantage：
   I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ
   I_t = 0 otherwise

3. 条件化策略：
   π_θ(a_t | o_t, ℓ, I_t)

优势：

简单有效的策略改进机制
不需要复杂的策略梯度计算
可以处理异构数据

3.3 创新点3：SPO损失函数

3.3.1 问题背景

标准PPO clipping在扩散模型上的问题：

扩散模型使用无界扩散头建模动作
难以在离线设置中实施信任区域约束
标准PPO clipping目标不稳定

3.3.2 SPO损失函数

SPO (Soft Policy Optimization) 损失函数：

$$
\mathcal{L}_{SPO+C_{o} \nu L_{A}}(\theta) = \left\{\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{ar}}}\left[\frac{\pi_{\theta}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(a_{\hat{\ell}} \in \hat{\ell} \mid \mathbf{o}_{t}, \ell)}-1\right]\right\}
$$

$$
+ \alpha\left\{\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)} A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell) -\frac{\left|A^{\pi_{\mathrm{ref}}}(o_{t}, a_{t}, \ell)\right|}{2 \epsilon_{\mathrm{flow}}}\left[\frac{\pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}-1\right]\right\}
$$

关键参数：

$\alpha$：自回归和flow-matching部分的权衡参数
$\epsilon_{\mathrm{ar}}$：自回归部分的信任区域参数
$\epsilon_{\mathrm{flow}}$：flow-matching部分的信任区域参数

优势：

更稳定的训练
适合离线RL设置
可以处理扩散模型

3.4 创新点4：CFG测试时策略改进

3.4.1 核心思想

在测试时使用Classifier-Free Guidance (CFG)进一步锐化策略，无需额外训练。

3.4.2 技术原理

锐化策略近似：

$$
\hat{\pi}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \propto \pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) \left(\frac{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)}{\pi_{\mathrm{ref}}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)}\right)^{\beta}
$$

推理时使用梯度：

$$
\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell) + \beta\left(\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{I}_{t}, \mathbf{o}_{t}, \ell)-\nabla_{\mathbf{a}} \log \pi_{\theta}(\mathbf{a}_{t:t+H}|\mathbf{o}_{t}, \ell)\right)
$$

参数设置：

$\beta \in [1.5, 2.5]$：适度的锐化设置
避免过度锐化导致动作分布超出学习支持范围

优势：

无需额外训练
可以灵活调整策略锐化程度
提高策略性能

3.5 创新点5：异构数据融合策略

3.5.1 数据来源

三种数据来源：

演示数据：
- 高质量人类演示
- 用于初始策略学习
- 数量有限但质量高
自主执行数据：
- 策略自主执行收集
- 数量大但质量参差不齐
- 包含成功和失败案例
专家干预数据：
- 专家在自主执行中的纠正
- 高质量但稀疏
- 用于纠正错误模式

3.5.2 融合策略

Algorithm 1: RECAP Training Pipeline

1. 预训练：
   - 在多样化数据集上训练π*0.6
   - 训练价值函数V^π
   - 计算advantage值

2. 任务微调：
   - 使用演示数据微调到任务
   - 迭代改进：
     a. 部署策略收集数据（自主+干预）
     b. 在在线数据上微调价值函数
     c. 计算advantage值
     d. 使用advantage conditioning改进策略

数据聚合策略：

使用advantage值进行数据加权
优先使用高advantage数据
平衡不同数据来源

4. 与传统VLA算法对比

4.1 与第一代VLA模型对比（RT-2, PaLM-E, OpenVLA, π0.6）

维度	第一代VLA	π*0.6	关键差异
训练方式	行为克隆	离线RL + 在线RL	✅ 支持强化学习
数据来源	仅演示数据	演示+自主+干预	✅ 异构数据融合
学习能力	模仿学习	从经验中学习	✅ 超越演示者
部署方式	一次性部署	迭代部署改进	✅ 持续学习
性能上限	受限于演示	超越演示	✅ 2倍吞吐量提升
适应能力	固定策略	动态改进	✅ 适应新环境

4.2 与离线RL方法对比

维度	离线RL方法	π*0.6 (RECAP)	关键差异
数据收集	离线批量收集	在线迭代收集	✅ 部署中学习
策略更新	批量更新	迭代更新	✅ 持续改进
适应能力	无法适应新环境	适应新环境	✅ 在线适应
计算成本	高（批量处理）	中等（迭代处理）	✅ 更高效
部署成本	一次性高成本	分散到迭代中	✅ 成本可控

4.3 与其他VLA+RL方法对比（πRL, RLinf-VLA）

维度	πRL	RLinf-VLA	π*0.6 (RECAP)	关键差异
策略表示	Flow-based	多种支持	Diffusion-based	不同架构
训练方式	在线RL	统一框架	离线+在线RL	✅ 端到端
数据融合	单一来源	多种来源	异构数据	✅ 更全面
优势机制	Flow-Noise	标准RL	Advantage-conditioning	✅ 更简单
部署验证	仿真为主	仿真为主	真实世界	✅ 实际部署
性能提升	仿真提升	仿真提升	2倍吞吐量	✅ 实际验证

4.4 核心差异总结

4.4.1 数据使用方式

传统方法：

仅使用演示数据
或仅使用离线收集的数据
数据来源单一

π*0.6方法：

✅ 融合演示、自主、干预三种数据
✅ 智能数据加权和采样
✅ 异构数据统一处理

4.4.2 学习机制

传统方法：

行为克隆：简单模仿
离线RL：批量学习
在线RL：需要频繁策略更新

π*0.6方法：

✅ Advantage-conditioning：简单有效的策略改进
✅ 价值函数微调：精确的优势估计
✅ 迭代部署：持续改进

4.4.3 部署方式

传统方法：

一次性部署
无法在线改进
需要重新训练才能适应

π*0.6方法：

✅ 迭代部署
✅ 在线数据收集
✅ 持续策略改进

5. RECAP方法详细分析

5.1 方法架构

┌─────────────────────────────────────────────────────────┐
│                    RECAP Training Pipeline                │
└─────────────────────────────────────────────────────────┘

阶段1: 预训练（离线RL）
├── 输入: 多样化多任务、多机器人数据集
├── 训练: π*0.6模型 + 价值函数V^π
├── 输出: 通用VLA模型
└── 特点: 大规模预训练，学习通用能力

阶段2: 任务微调（演示数据）
├── 输入: 任务特定演示数据
├── 训练: 微调π*0.6到下游任务
├── 输出: 任务特定策略
└── 特点: 快速适应新任务

阶段3: 迭代改进（在线RL）
├── 迭代1:
│   ├── 部署策略收集数据（自主+干预）
│   ├── 微调价值函数V^π
│   ├── 计算advantage值
│   └── 使用advantage conditioning改进策略
├── 迭代2:
│   └── 重复迭代1过程
└── 迭代N:
    └── 持续改进直到满足性能要求

5.1.1 完整Pipeline流程图

┌─────────────────────────────────────────────────────────────────┐
│                    RECAP完整训练Pipeline                          │
└─────────────────────────────────────────────────────────────────┘

【阶段1: 预训练（离线RL）】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 多样化多任务、多机器人数据集 D_pretrain                  │
│                                                               │
│ 步骤1.1: 初始化π*0.6模型（基于π0.6架构）                      │
│ 步骤1.2: 训练价值函数 V^π(·)                                  │
│ 步骤1.3: 计算advantage值 A^π(o_t, a_t) = Σr_t' - V^π(o_t)    │
│ 步骤1.4: 使用SPO损失函数训练策略（advantage conditioning）    │
│                                                               │
│ 输出: 预训练模型 π*0.6_pretrain, V^π_pretrain                │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段2: 任务微调（演示数据）】
┌─────────────────────────────────────────────────────────────┐
│ 输入: 任务特定演示数据 D_demo = {(o_i, a_i, ℓ_i)}            │
│                                                               │
│ 步骤2.1: 使用演示数据微调π*0.6到下游任务                      │
│ 步骤2.2: 行为克隆损失: L_BC = -log π_θ(a|o, ℓ)               │
│ 步骤2.3: 可选：在演示数据上微调价值函数                        │
│                                                               │
│ 输出: 任务特定策略 π*0.6_task                                │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段3: 在线部署迭代改进（核心Pipeline）】
┌─────────────────────────────────────────────────────────────┐
│ FOR iteration = 1 to N:                                       │
│                                                               │
│   【步骤3.1: 部署策略收集数据】                                │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.1.1: 部署当前策略π*0.6_iter到真实机器人              │   │
│   │ 3.1.2: 收集自主执行数据 D_autonomous                   │   │
│   │        - 策略自主执行episode                          │   │
│   │        - 记录观察o_t、动作a_t、奖励r_t                 │   │
│   │ 3.1.3: 收集专家干预数据 D_correction                   │   │
│   │        - 专家在自主执行中的纠正                        │   │
│   │        - 高质量但稀疏的纠正轨迹                        │   │
│   │ 3.1.4: 评估策略性能（成功率、吞吐量等）                 │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.2: 数据聚合与奖励标注】                             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.2.1: 合并异构数据                                    │   │
│   │        D_online = D_demo ∪ D_autonomous ∪ D_correction │   │
│   │ 3.2.2: 为每个episode计算奖励信号                        │   │
│   │        - 任务完成奖励（稀疏）                           │   │
│   │        - 中间步骤奖励（可选）                           │   │
│   │        - 人工评估奖励（用于价值函数训练）               │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.3: 微调价值函数】                                   │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.3.1: 在在线数据D_online上微调价值函数V^π             │   │
│   │ 3.3.2: 价值函数损失:                                   │   │
│   │        L_V = (V^π(o_t) - R_t)^2                       │   │
│   │        其中 R_t = Σ_{t'=t}^T r_{t'}                    │   │
│   │ 3.3.3: 使用在线数据改进对任务完成进度的估计              │   │
│   │ 输出: 更新后的价值函数 V^π_iter                        │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.4: 计算Advantage值】                                │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.4.1: 使用更新后的价值函数计算advantage                │   │
│   │        A^π(o_t, a_t, ℓ) =                            │   │
│   │          Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) -    │   │
│   │          V^π(o_t)                                    │   │
│   │        (N=50步前瞻，微调阶段)                          │   │
│   │ 3.4.2: 二值化advantage值                               │   │
│   │        I_t = 1 if A^π(o_t, a_t, ℓ) > ε_ℓ             │   │
│   │        I_t = 0 otherwise                             │   │
│   │ 3.4.3: 设置阈值ε_ℓ（约40%数据有正advantage）            │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.5: 策略改进（Advantage Conditioning）】             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.5.1: 使用SPO损失函数训练策略                          │   │
│   │        L_SPO = L_SPO_ar + α·L_SPO_flow                │   │
│   │ 3.5.2: 策略输入条件化                                  │   │
│   │        π_θ(a_t | o_t, ℓ, I_t)                        │   │
│   │        - 当I_t=1时，策略学习产生高advantage动作         │   │
│   │        - 当I_t=0时，策略学习避免低advantage动作         │   │
│   │ 3.5.3: Conditioning Dropout（30%时间）                 │   │
│   │        - 支持CFG测试时策略改进                          │   │
│   │ 3.5.4: 使用参考策略π_ref进行信任区域约束                │   │
│   │ 输出: 改进后的策略 π*0.6_{iter+1}                      │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│   【步骤3.6: 性能评估与迭代决策】                             │
│   ┌─────────────────────────────────────────────────────┐   │
│   │ 3.6.1: 评估新策略性能                                  │   │
│   │        - 成功率、吞吐量、失败率等指标                    │   │
│   │ 3.6.2: 判断是否继续迭代                                │   │
│   │        - 如果性能提升显著，继续迭代                     │   │
│   │        - 如果性能收敛，停止迭代                         │   │
│   │ 3.6.3: 更新参考策略（可选）                            │   │
│   │        π_ref = π*0.6_{iter+1}                        │   │
│   └─────────────────────────────────────────────────────┘   │
│                                                               │
│ END FOR                                                       │
│                                                               │
│ 输出: 最终改进策略 π*0.6_final                              │
└─────────────────────────────────────────────────────────────┘
                            ↓
【阶段4: 测试时策略改进（可选）】
┌─────────────────────────────────────────────────────────────┐
│ 使用Classifier-Free Guidance (CFG)进一步锐化策略              │
│                                                               │
│ 步骤4.1: 计算CFG梯度                                          │
│          ∇_a log π_θ(a|o, ℓ) +                              │
│          β(∇_a log π_θ(a|I=1, o, ℓ) -                       │
│             ∇_a log π_θ(a|o, ℓ))                            │
│                                                               │
│ 步骤4.2: 使用梯度引导采样（β ∈ [1.5, 2.5]）                   │
│                                                               │
│ 输出: 锐化后的策略（无需额外训练）                            │
└─────────────────────────────────────────────────────────────┘

5.2 Advantage Estimation

5.2.1 预训练阶段

优势估计公式：

$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=0}^{T} r_{t}^{\prime} - V^{\pi}\left(\mathbf{o}_{t}\right)
$$

特点：

使用整个episode的回报
$N = T$（episode长度）
高方差估计但适合大规模预训练
单次价值函数推理即可计算

5.2.2 微调阶段

优势估计公式：

$$
A^{\pi}\left(\mathbf{o}_{t}, \mathbf{a}_{t}\right) = \sum_{t^{\prime}=t}^{t+N-1} r_{t}^{\prime} + V^{\pi}\left(\mathbf{o}_{t+N}\right) - V^{\pi}\left(\mathbf{o}_{t}\right)
$$

特点：

使用N步前瞻（$N=50$）
结合即时奖励和未来价值
低方差估计
适合精细调优

5.3 Advantage Conditioning机制

5.3.1 二值化过程

Advantage阈值设置：

预训练阶段：
- 对每个任务选择阈值$\epsilon_{\ell}$
- 使得约30%的演示数据有正advantage
- 基于10k随机样本计算
微调阶段：
- 一般设置：约40%的评估rollout有正advantage
- 特殊情况（如T恤和短裤折叠）：
  - 高质量演示数据产生慢但成功率高的策略
  - 提高阈值使得仅约10%的数据有正advantage

5.3.2 Conditioning Dropout

训练时随机dropout：

30%的时间随机dropout advantage conditioning
目的：
1. 可以直接从条件或无条件策略采样
2. 支持CFG进行测试时策略改进
3. 有效替代损失乘数$\alpha$

5.4 在线部署训练Pipeline算法伪代码

5.4.1 RECAP算法伪代码

# Algorithm 1: RECAP Training Pipeline
# 输入: 预训练模型π*0.6_pretrain, 价值函数V^π_pretrain
#       任务演示数据D_demo, 任务描述ℓ

def RECAP_Training_Pipeline(π_pretrain, V_pretrain, D_demo, ℓ):
    # 阶段1: 任务微调（演示数据）
    π_task = FineTune_On_Demo(π_pretrain, D_demo, ℓ)
    V_task = FineTune_ValueFunction(V_pretrain, D_demo, ℓ)
    
    # 阶段2: 在线部署迭代改进
    π_current = π_task
    V_current = V_task
    D_accumulated = D_demo  # 累积所有数据
    
    for iteration in range(1, N_max_iterations + 1):
        # 步骤1: 部署策略收集数据
        D_autonomous, D_correction = Deploy_And_Collect(
            π_current, 
            num_episodes_autonomous,
            num_episodes_correction
        )
        
        # 步骤2: 数据聚合
        D_online = D_accumulated ∪ D_autonomous ∪ D_correction
        
        # 步骤3: 计算奖励信号
        for episode in D_online:
            episode.rewards = Compute_Rewards(episode, ℓ)
            # 稀疏奖励：任务完成时r_T=1，否则r_t=0
            # 或使用人工评估奖励
        
        # 步骤4: 微调价值函数
        V_updated = FineTune_ValueFunction(
            V_current,
            D_online,
            loss_fn=MSELoss,  # L_V = (V^π(o_t) - R_t)^2
            epochs=value_function_epochs
        )
        
        # 步骤5: 计算Advantage值
        for episode in D_online:
            for t in range(len(episode)):
                # N步前瞻advantage估计
                N = 50  # 微调阶段
                R_t = sum(episode.rewards[t:t+N])
                V_future = V_updated(episode.observations[t+N])
                V_current = V_updated(episode.observations[t])
                
                episode.advantages[t] = R_t + V_future - V_current
                
                # 二值化advantage
                ε_ℓ = Compute_Threshold(D_online, ℓ)  # 约40%正advantage
                episode.I_t[t] = 1 if episode.advantages[t] > ε_ℓ else 0
        
        # 步骤6: 策略改进（Advantage Conditioning）
        π_updated = Train_Policy_With_SPO(
            π_current,
            D_online,
            V_updated,
            reference_policy=π_task,  # 或π_current
            advantage_conditioning=True,
            conditioning_dropout_rate=0.3
        )
        
        # 步骤7: 性能评估
        performance = Evaluate_Policy(π_updated, ℓ)
        print(f"Iteration {iteration}: Success Rate = {performance.success_rate}, "
              f"Throughput = {performance.throughput}")
        
        # 步骤8: 判断是否继续迭代
        if performance.improvement < threshold or iteration >= N_max_iterations:
            break
        
        # 更新当前策略和价值函数
        π_current = π_updated
        V_current = V_updated
        D_accumulated = D_online
    
    return π_current, V_current

5.4.2 关键函数详细实现

1. 部署与数据收集函数：

def Deploy_And_Collect(π, num_autonomous, num_correction):
    """
    部署策略到真实机器人并收集数据
    """
    D_autonomous = []
    D_correction = []
    
    # 收集自主执行数据
    for i in range(num_autonomous):
        episode = []
        observation = env.reset()
        
        while not env.is_done():
            # 策略采样动作
            action = π.sample(observation, task_description)
            next_obs, reward, done = env.step(action)
            
            episode.append({
                'observation': observation,
                'action': action,
                'reward': reward,
                'done': done
            })
            observation = next_obs
        
        D_autonomous.append(episode)
    
    # 收集专家干预数据
    for i in range(num_correction):
        episode = []
        observation = env.reset()
        expert_intervened = False
        
        while not env.is_done():
            # 策略采样动作
            action_policy = π.sample(observation, task_description)
            
            # 专家可以干预纠正
            if expert.should_intervene(observation, action_policy):
                action = expert.correct(observation, action_policy)
                expert_intervened = True
            else:
                action = action_policy
            
            next_obs, reward, done = env.step(action)
            
            episode.append({
                'observation': observation,
                'action': action,
                'action_policy': action_policy,
                'expert_intervened': expert_intervened,
                'reward': reward,
                'done': done
            })
            observation = next_obs
        
        D_correction.append(episode)
    
    return D_autonomous, D_correction

2. SPO损失函数训练策略：

def Train_Policy_With_SPO(π, D, V, reference_policy, 
                          advantage_conditioning=True,
                          conditioning_dropout_rate=0.3):
    """
    使用SPO损失函数训练策略
    """
    optimizer = Adam(π.parameters(), lr=policy_lr)
    
    for epoch in range(policy_epochs):
        for batch in DataLoader(D, batch_size=batch_size):
            observations = batch['observations']
            actions = batch['actions']
            advantages = batch['advantages']
            I_t = batch['I_t']  # 二值化advantage指示器
            
            # Conditioning Dropout
            if random.random() < conditioning_dropout_rate:
                I_t = None  # 无条件训练
            
            # 计算策略损失
            if advantage_conditioning and I_t is not None:
                # 条件策略: π(a|o, ℓ, I_t)
                log_prob = π.log_prob(actions, observations, 
                                      task_description, I_t)
            else:
                # 无条件策略: π(a|o, ℓ)
                log_prob = π.log_prob(actions, observations, 
                                      task_description)
            
            # 参考策略概率
            with torch.no_grad():
                log_prob_ref = reference_policy.log_prob(
                    actions, observations, task_description
                )
            
            # SPO损失函数
            ratio = torch.exp(log_prob - log_prob_ref)
            
            # 自回归部分损失
            L_ar = (ratio * advantages - 
                   abs(advantages) / (2 * ε_ar) * 
                   (ratio - 1).clamp(min=0))
            
            # Flow-matching部分损失
            L_flow = (ratio * advantages - 
                     abs(advantages) / (2 * ε_flow) * 
                     (ratio - 1).clamp(min=0))
            
            # 总损失
            loss = -L_ar.mean() - α * L_flow.mean()
            
            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
    
    return π

5.4.3 不同任务的数据收集策略

1. 衣物折叠（T恤和短裤）：

仅使用自主评估数据（无专家纠正）
原因：模型性能接近专家速度，难以提供纠正
收集：300个episode，4个机器人站
迭代次数：通常1-2次迭代即可达到性能上限

2. 多样化衣物折叠：

450个评估episode
287个纠正episode
结合自主和纠正数据
迭代次数：2-3次迭代

3. 纸箱组装：

部署场景中直接收集
每轮迭代：600个演示 + 360个纠正episode
使用3个机器人
迭代次数：多次迭代，持续改进

4. 咖啡制作：

单次迭代
429个纠正episode
414个自主episode
迭代次数：通常1次迭代即可显著提升

5.4.4 数据聚合与采样策略

数据聚合原则：

保留所有演示数据：演示数据始终包含在训练集中
累积在线数据：每次迭代的新数据累积到总数据集中
智能采样：根据advantage值进行加权采样
- 高advantage数据权重更高
- 平衡不同数据来源（演示、自主、干预）

采样策略：

def Sample_Training_Batch(D_accumulated, batch_size):
    """
    智能采样训练批次
    """
    # 计算每个样本的采样权重
    weights = []
    for episode in D_accumulated:
        for step in episode:
            # 基于advantage值计算权重
            advantage = step['advantage']
            weight = max(0, advantage) + 0.1  # 确保所有样本有最小权重
            weights.append(weight)
    
    # 归一化权重
    weights = np.array(weights)
    weights = weights / weights.sum()
    
    # 加权采样
    indices = np.random.choice(len(weights), 
                              size=batch_size, 
                              p=weights)
    
    return [D_accumulated[i] for i in indices]

5.4.5 迭代停止条件

停止条件判断：

性能提升阈值：如果连续2次迭代性能提升 < 5%，停止迭代
最大迭代次数：达到预设的最大迭代次数（如5次）
性能收敛：性能指标（成功率、吞吐量）达到目标值
资源限制：达到时间或计算资源限制

性能评估指标：

成功率：任务完成的episode比例
吞吐量：单位时间内完成的任务数量
失败率：任务失败的episode比例
平均episode长度：完成任务的平均步数

5.5 在线部署训练Pipeline关键要点总结

5.5.1 Pipeline核心流程

在线部署训练提升的Pipeline包含以下6个关键步骤（每次迭代）：

部署策略收集数据 → 2. 数据聚合与奖励标注 → 3. 微调价值函数 → 4. 计算Advantage值 → 5. 策略改进（Advantage Conditioning） → 6. 性能评估与迭代决策

5.5.2 关键技术要点

技术要点	详细说明	创新性
异构数据融合	统一处理演示、自主、干预三种数据源	✅ 首次实现三种数据源统一训练
Advantage Conditioning	二值化advantage作为策略条件输入	✅ 简单有效的策略改进机制
价值函数微调	在在线数据上持续改进价值估计	✅ 精确的优势估计
SPO损失函数	适合扩散模型的信任区域约束	✅ 稳定的大模型RL训练
迭代部署	真实世界持续学习和改进	✅ 首次真实世界验证
CFG测试时改进	无需额外训练的策略锐化	✅ 灵活的性能提升

5.5.3 Pipeline数据流

真实世界部署
    ↓
[自主执行数据] + [专家干预数据]
    ↓
数据聚合 (D_online = D_demo ∪ D_autonomous ∪ D_correction)
    ↓
奖励标注 (稀疏奖励或人工评估)
    ↓
价值函数微调 (V^π更新)
    ↓
Advantage计算 (N步前瞻，二值化)
    ↓
策略改进 (SPO损失 + Advantage Conditioning)
    ↓
性能评估
    ↓
迭代决策 (继续/停止)

5.5.4 与传统方法的Pipeline对比

阶段	传统VLA方法	π*0.6 RECAP方法
预训练	行为克隆，仅演示数据	离线RL，多样化数据
任务适应	演示数据微调	演示数据微调 + 价值函数训练
部署	一次性部署，无法改进	迭代部署，持续改进
数据收集	无	自主执行 + 专家干预
策略更新	无	价值函数微调 + Advantage Conditioning
性能提升	受限于演示	超越演示，2倍吞吐量提升

5.5.5 Pipeline实际部署经验

关键成功因素：

数据收集策略：
- 平衡自主执行和专家干预数据
- 根据任务特点调整数据收集比例
- 确保数据质量和多样性
价值函数训练：
- 在在线数据上持续微调
- 使用准确的奖励信号
- 避免过拟合
Advantage阈值设置：
- 预训练阶段：约30%正advantage
- 微调阶段：约40%正advantage
- 特殊情况：可调整到10%（高质量演示）
迭代策略：
- 通常1-3次迭代即可显著提升
- 根据性能提升决定是否继续
- 避免过度迭代导致过拟合
真实世界部署：
- 需要安全机制
- 支持专家实时干预
- 监控策略性能

实际部署效果：

✅ 衣物折叠：2倍吞吐量提升，2小时+连续运行
✅ 纸箱组装：可靠性显著提升，可用于实际工厂
✅ 咖啡制作：13小时+连续运行，高成功率

6. 技术突破分析

6.1 突破1：异构数据融合

6.1.1 技术挑战

问题：

不同数据来源分布不同
数据质量差异大
需要统一处理框架

解决方案：

✅ Advantage值作为统一指标
✅ 智能数据加权
✅ 统一训练流程

6.1.2 创新点

首次实现：

演示数据、自主数据、干预数据的统一融合
通过advantage值进行智能加权
支持迭代改进

6.2 突破2：稳定的大模型RL训练

6.2.1 技术挑战

问题：

标准PPO clipping在扩散模型上不稳定
大模型微调容易过拟合
离线RL设置难以实施信任区域约束

解决方案：

✅ SPO损失函数替代标准PPO
✅ 分离的自回归和flow-matching信任区域参数
✅ 稳定的训练流程

6.2.2 创新点

SPO损失函数：

适合扩散模型的信任区域约束
分离处理自回归和flow-matching部分
稳定的离线RL训练

6.3 突破3：真实世界部署验证

6.3.1 技术挑战

问题：

真实世界部署成本高
需要安全机制
难以频繁更新策略

解决方案：

✅ 迭代部署策略
✅ 在线数据收集
✅ 持续策略改进

6.3.2 创新点

首次实现：

通用VLA模型在真实世界的持续学习
从部署经验中显著改进性能
实际验证的性能提升（2倍吞吐量）

7. 实验验证与性能提升

7.1 实验任务

7.1.1 任务1：衣物折叠

任务描述：

在真实家庭中折叠多样化的衣物
包括T恤、短裤、长裤等
处理真实世界的变异性

性能提升：

✅ 吞吐量提升：2倍+
✅ 失败率降低：50%+
✅ 连续运行：2小时+无中断

7.1.2 任务2：纸箱组装

任务描述：

可靠地组装纸箱
处理真实包装场景
处理纸箱粘连和弯曲等挑战

性能提升：

✅ 可靠性显著提升
✅ 可用于实际工厂包装

7.1.3 任务3：意式咖啡制作

任务描述：

使用专业咖啡机制作意式咖啡
处理液体倾倒等复杂操作
处理真实咖啡机的变异性

性能提升：

✅ 连续运行：13小时+
✅ 高成功率
✅ 实际可用性验证

7.2 性能提升总结

任务	吞吐量提升	失败率降低	连续运行时间
衣物折叠	2倍+	50%+	2小时+
纸箱组装	显著提升	显著降低	实际部署
咖啡制作	显著提升	显著降低	13小时+

7.3 关键成果

1. 实用性验证：

✅ 真实世界部署
✅ 长时间连续运行
✅ 实际应用场景

2. 性能超越演示：

✅ 吞吐量超越人类演示者
✅ 失败率低于初始策略
✅ 适应新环境能力

3. 持续学习能力：

✅ 从部署经验中学习
✅ 迭代改进策略
✅ 适应新场景

8. 应用价值与影响

8.1 理论贡献

1. 方法创新：

RECAP方法框架
Advantage-conditioning机制
SPO损失函数

2. 理论突破：

异构数据融合理论
大模型RL训练稳定性
真实世界持续学习

8.2 实践价值

1. 实际应用：

真实世界机器人部署
持续学习和改进
超越人类演示者

2. 工程价值：

可扩展的训练流程
稳定的训练方法
实用的部署策略

8.3 影响范围

1. 学术影响：

开创VLA模型真实世界RL训练
提供通用训练框架
推动领域发展

2. 工业影响：

实际机器人应用
降低部署成本
提高系统性能

9. π*0.6作为世界模型+VLA的深度分析

9.1 为什么说π*0.6是世界模型+VLA的模型？

根据世界模型综述论文（arXiv:2411.14499）的定义，世界模型具有两大核心功能：

理解世界机制：构建内部表示以理解环境的运作规律
预测未来状态：预测环境的动态变化以指导决策

π*0.6不仅是一个VLA模型，更是一个世界模型增强的VLA模型，因为它同时具备VLA的多模态理解能力和世界模型的预测与理解能力。

9.2 π*0.6中的世界模型特征

9.2.1 价值函数作为世界模型的核心组件

世界模型定义（根据综述论文）：

世界模型是智能体对环境的内部表示或模拟
用于预测环境的动态和结果
支持决策和规划

π*0.6中的价值函数V^π：

V^π(o_t) = E[Σ_{t'=t}^T r_{t'} | o_t, π]

世界模型特征体现：

内部世界表示：
- 价值函数V^π学习了对世界状态的内部表示
- 能够评估当前观察o_t对应的世界状态价值
- 理解任务完成进度和世界状态
未来状态预测：
- 通过N步前瞻advantage估计预测未来：
```
A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)
```
- 预测执行动作a_t后未来N步的回报
- 评估动作对世界状态的影响
持续学习与改进：
- 在在线数据上持续微调价值函数
- 改进对世界动态的理解
- 适应真实世界的变异性

9.2.2 Advantage估计作为预测机制

Advantage估计公式：

A^π(o_t, a_t, ℓ) = Σ_{t'=t}^{t+N-1} r_{t'} + V^π(o_{t+N}) - V^π(o_t)

世界模型预测特征：

N步前瞻预测：
- 预测未来N步（N=50）的回报
- 结合即时奖励和未来价值
- 类似于世界模型的前向预测
动作影响评估：
- 评估动作a_t对未来世界状态的影响
- 预测动作的长期后果
- 支持基于模型的规划
不确定性处理：
- 通过价值函数的不确定性量化预测置信度
- 处理真实世界的随机性

9.2.3 从经验中学习世界动态

世界模型学习特征（参考Dreamer系列）：

从经验数据中学习环境动态
构建对世界的内部表示
持续改进对世界的理解

π*0.6的学习机制：

异构数据融合：
- 从演示、自主执行、专家干预数据中学习
- 理解不同场景下的世界动态
- 构建更全面的世界表示
在线学习：
- 在真实世界部署中持续学习
- 适应新环境和新任务
- 改进对世界动态的理解
价值函数微调：
- 在在线数据上微调价值函数
- 改进对任务完成进度的估计
- 更准确地预测未来状态

9.3 π*0.6中的VLA模型特征

9.3.1 多模态理解能力

VLA模型定义：

Vision-Language-Action模型
结合视觉、语言、动作三种模态
从视觉和语言输入生成动作

π*0.6的VLA架构：

输入: 观察o_t（视觉） + 任务描述ℓ（语言）
输出: 动作a_t（动作）
模型: π_θ(a_t | o_t, ℓ, I_t)

VLA特征体现：

视觉理解：
- 处理高维视觉输入（图像/视频）
- 理解场景、物体、空间关系
- 基于π0.6的强大视觉编码器
语言理解：
- 理解任务描述ℓ
- 支持自然语言指令
- 灵活的任务指定
动作生成：
- 生成连续动作序列
- 支持复杂操作任务
- Diffusion-based动作生成

9.3.2 多模态条件化

条件化策略：

π_θ(a_t | o_t, ℓ, I_t)

多模态条件：

视觉条件：o_t（当前观察）
语言条件：ℓ（任务描述）
世界模型条件：I_t（advantage指示器，来自价值函数）

9.4 世界模型+VLA的融合架构

9.4.1 整体架构

┌─────────────────────────────────────────────────────────┐
│              π*0.6: 世界模型增强的VLA架构                │
└─────────────────────────────────────────────────────────┘

【VLA组件】
├── 视觉编码器: o_t → 视觉特征
├── 语言编码器: ℓ → 语言特征
└── 动作解码器: [视觉特征, 语言特征, I_t] → a_t

【世界模型组件】
├── 价值函数: V^π(o_t) → 状态价值
├── Advantage估计: A^π(o_t, a_t, ℓ) → 动作优势
└── 未来预测: V^π(o_{t+N}) → 未来状态价值

【融合机制】
├── Advantage Conditioning: I_t = sign(A^π) → 策略条件
├── 价值函数微调: 在在线数据上改进V^π
└── 策略改进: 使用advantage conditioning改进策略

9.4.2 世界模型与VLA的协同

1. 世界模型增强VLA决策：

价值函数提供世界状态评估
Advantage估计提供动作质量评估
指导VLA生成更好的动作

2. VLA增强世界模型学习：

VLA的多模态理解能力帮助理解世界状态
视觉和语言信息丰富世界表示
动作执行提供世界动态数据

3. 端到端学习：

世界模型和VLA联合训练
相互促进，共同改进
从预训练到部署的端到端优化

9.5 与世界模型发展脉络的对应

9.5.1 与世界模型分类的对应

根据世界模型综述论文的分类：

世界模型类型	π*0.6中的体现
理解型世界模型	价值函数V^π学习世界状态表示，理解任务完成进度
预测型世界模型	Advantage估计预测未来N步回报，评估动作影响
基于模型的RL	使用价值函数和advantage进行策略改进
多模态世界模型	结合视觉、语言、动作三种模态

9.5.2 与世界模型发展阶段的对应

2024年多模态世界模型时代（根据世界模型发展脉络）：

多模态融合（视觉+语言+动作）✅
大规模预训练 ✅
真实世界部署 ✅
持续学习 ✅

π*0.6的定位：

属于2024年多模态世界模型时代的产物
结合了VLA的多模态能力和世界模型的预测能力
在真实世界中验证了世界模型+VLA的可行性

9.6 与传统世界模型的对比

9.6.1 与传统世界模型的差异

特征	传统世界模型（如Dreamer）	π*0.6（世界模型+VLA）
输入模态	仅视觉	视觉+语言
动作空间	低维连续动作	高维复杂动作序列
任务指定	固定任务	自然语言任务描述
泛化能力	任务特定	多任务泛化
部署方式	仿真为主	真实世界部署
学习方式	梦境训练	在线RL+真实世界学习

9.6.2 与传统VLA模型的差异

特征	传统VLA（如RT-2, π0.6）	π*0.6（世界模型+VLA）
世界模型	无	价值函数V^π
未来预测	无	N步前瞻advantage
策略改进	行为克隆	Advantage conditioning
学习方式	离线训练	在线RL+持续学习
性能上限	受限于演示	超越演示者

9.7 世界模型+VLA的创新意义

9.7.1 理论创新

首次实现：

✅ 通用VLA模型与世界模型的深度融合
✅ 价值函数作为世界模型组件指导VLA决策
✅ 真实世界持续学习的世界模型+VLA系统

9.7.2 技术突破

关键技术：

Advantage Conditioning：
- 将世界模型的预测（advantage）作为VLA的条件
- 实现世界模型与VLA的深度融合
价值函数微调：
- 在在线数据上持续改进世界模型
- 适应真实世界的变异性
异构数据融合：
- 从多种数据源学习世界动态
- 构建更全面的世界表示

9.7.3 应用价值

实际应用：

✅ 真实世界机器人部署
✅ 持续学习和改进
✅ 超越人类演示者
✅ 多任务泛化

9.8 总结：π*0.6作为世界模型+VLA的证据

核心证据：

世界模型特征：
- ✅ 价值函数V^π作为世界状态表示
- ✅ N步前瞻advantage估计作为未来预测
- ✅ 从经验中持续学习世界动态
- ✅ 支持基于模型的决策
VLA模型特征：
- ✅ 视觉-语言-动作多模态架构
- ✅ 自然语言任务指定
- ✅ 复杂动作序列生成
- ✅ 多任务泛化能力
融合创新：
- ✅ Advantage conditioning实现深度融合
- ✅ 端到端联合训练
- ✅ 真实世界验证

结论： π*0.6是世界模型增强的VLA模型，它结合了：

VLA的多模态理解能力（视觉+语言→动作）
世界模型的预测与理解能力（价值函数+advantage估计）

这使得π*0.6不仅能够理解多模态输入并生成动作，还能够预测动作的未来影响，理解世界状态，并持续从经验中改进，从而实现了理解世界机制和预测未来状态两大世界模型核心功能。

10. 总结与展望

10.1 核心贡献总结

π*0.6论文的核心贡献：

RECAP方法：
- 首个通用VLA模型真实世界RL训练框架
- 支持异构数据融合
- 支持迭代部署改进
π*0.6模型：
- 基于π0.6的RL改进版本
- 支持advantage conditioning
- 可以结合价值函数改进策略
实际验证：
- 真实世界部署验证
- 显著性能提升（2倍吞吐量）
- 长时间连续运行

9.2 与之前VLA算法的关键差异

维度	之前VLA算法	π*0.6	关键创新
数据使用	单一来源	异构融合	✅ 演示+自主+干预
学习方式	离线训练	在线学习	✅ 部署中学习
策略改进	固定策略	动态改进	✅ Advantage-conditioning
部署方式	一次性	迭代改进	✅ 持续学习
性能验证	仿真为主	真实世界	✅ 实际部署验证
性能提升	受限于演示	超越演示	✅ 2倍吞吐量提升

9.3 未来展望

1. 方法改进：

更高效的数据收集策略
更稳定的训练方法
更智能的优势估计

2. 应用扩展：

更多任务类型
更多机器人平台
更多部署场景

3. 理论发展：

异构数据融合理论
大模型RL训练理论
真实世界持续学习理论

11. 参考文献

π*0.6论文：
- 标题: π*0.6: a VLA That Learns From Experience
- 链接: https://www.pi.website/download/pistar06.pdf
- 博客: https://pi.website/blog/pistar06
相关VLA工作：
- RT-2 (Google DeepMind, 2023)
- PaLM-E (Google, 2023)
- OpenVLA (2024)
- π0.5, π0.6 (Physical Intelligence, 2024)
相关RL工作：
- πRL (2024): Flow-based VLA在线RL微调
- RLinf-VLA (2024): 统一VLA+RL训练框架
世界模型相关：
- World Models Survey (2024): Understanding World or Predicting Future? A Comprehensive Survey of World Models
- arXiv: 2411.14499
- 链接: https://arxiv.org/pdf/2411.14499
- Dreamer系列: 基于模型的强化学习世界模型
- World Models (2018): VAE-RNN架构的世界模型

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合

全球具身智能开发者社区

所有评论(0)

查看更多评论

铮铭

@hzm8341

已为社区贡献2条内容

π*0.6论文创新点分析：对比传统VLA算法

铮铭

论文信息:

目录

1. 执行摘要

1.1 核心贡献

1.2 主要创新点总结

1.3 技术突破意义

2. 研究背景与问题定义

2.1 VLA模型的发展历程

2.1.1 第一代VLA模型（行为克隆）

2.1.2 第二代VLA模型（离线RL）

2.1.3 第三代VLA模型（在线RL + 真实世界部署）

2.2 核心问题定义

2.2.1 问题1：如何从真实世界部署中学习？

2.2.2 问题2：如何稳定训练大模型？

2.2.3 问题3：如何融合异构数据？

3. π*0.6核心创新点

3.1 创新点1：RECAP方法框架

3.1.1 核心思想

3.1.2 方法流程

3.1.3 关键组件

3.2 创新点2：π*0.6模型架构

3.2.1 模型改进

3.2.2 Advantage Conditioning机制

3.3 创新点3：SPO损失函数

3.3.1 问题背景

3.3.2 SPO损失函数

3.4 创新点4：CFG测试时策略改进

3.4.1 核心思想

3.4.2 技术原理

3.5 创新点5：异构数据融合策略

3.5.1 数据来源

3.5.2 融合策略

4. 与传统VLA算法对比

4.1 与第一代VLA模型对比（RT-2, PaLM-E, OpenVLA, π0.6）

4.2 与离线RL方法对比

4.3 与其他VLA+RL方法对比（πRL, RLinf-VLA）

4.4 核心差异总结

4.4.1 数据使用方式

4.4.2 学习机制

4.4.3 部署方式

5. RECAP方法详细分析

5.1 方法架构

5.1.1 完整Pipeline流程图

5.2 Advantage Estimation

5.2.1 预训练阶段

5.2.2 微调阶段

5.3 Advantage Conditioning机制

5.3.1 二值化过程

5.3.2 Conditioning Dropout

5.4 在线部署训练Pipeline算法伪代码

5.4.1 RECAP算法伪代码

5.4.2 关键函数详细实现

5.4.3 不同任务的数据收集策略

5.4.4 数据聚合与采样策略

5.4.5 迭代停止条件

5.5 在线部署训练Pipeline关键要点总结

5.5.1 Pipeline核心流程

5.5.2 关键技术要点

5.5.3 Pipeline数据流

5.5.4 与传统方法的Pipeline对比

5.5.5 Pipeline实际部署经验

6. 技术突破分析

6.1 突破1：异构数据融合

6.1.1 技术挑战

6.1.2 创新点

6.2 突破2：稳定的大模型RL训练

6.2.1 技术挑战

6.2.2 创新点

6.3 突破3：真实世界部署验证

6.3.1 技术挑战

6.3.2 创新点

7. 实验验证与性能提升

7.1 实验任务

7.1.1 任务1：衣物折叠

7.1.2 任务2：纸箱组装

7.1.3 任务3：意式咖啡制作

7.2 性能提升总结

7.3 关键成果