VLA 论文精读(八)Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
这篇文章是对作者先前工作OpenVAL的一个扩展,旨在使用更好的微调方式以提高模型的控制输出频率,在这期间作者发现这种微调方式甚至能让模型获得更强大的泛化,包括双臂操作、多视角输入等。
这篇笔记用来描述 2025年 发表在arxiv上的一篇有关 VLA 领域的论文。这篇文章是 OpenVAL 的一次扩展,有关OpenVAL的笔记可以参考博客 VLA 论文精读(一)OpenVLA: An Open-Source Vision-Language-Action Model,建议在阅读该读书笔记之前先看一遍,至少对 OpenVLA 有一个基本概念。
【Note】:论文中有大量动图无法进行展示,建议看的时候同步打开 项目官网 以便随时查看对应的演示动图。
写在最前面
为了方便你的阅读,以下几点的注意事项请务必了解:
- 该系列文章每个字都是我理解后自行翻译并写上去的,可能会存在笔误与理解错误,如果发现了希望读者能够在评论区指正,我会在第一时间修正错误。
- 阅读这个系列需要你有基本的 VLA, LLM, VLM 相关基础知识,有时候我会直接使用英文名词,因为这些词汇实在不容易找到符合语境的翻译。
- 原文可能因为版面限制存在图像表格与段落不同步的问题,为了更方便阅读,我会在博文中重新对图像表格进行排版,并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
- 对于原文中的图像,我会在必要时对图像描述进行翻译并附上我自己的理解,但如果图像描述不值得翻译我也不会强行写上去。
Basic Information
- 论文标题:Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success
- 原文链接: https://arxiv.org/abs/2502.19645
- 发表时间:2025年02月27日
- 发表平台:arxiv
- 预印版本号:[v1] Thu, 27 Feb 2025 00:30:29 UTC (24,156 KB)
- 作者团队:Moo Jin Kim, Chelsea Finn, Percy Liang
- 院校机构:
- Stanford University;
- 项目链接: https://openvla-oft.github.io
- GitHub仓库: https://github.com/moojink/openvla-oft
Abstract
近期 VLA 以预训练的VL模型为基础,并利用丰富的机器人数据集展现出强大的任务执行能力、语言跟随能力、语义泛化能力。尽管取得了阶段性进展,但 VLA 仍难以迁移到新机器人上,需要进行微调才能获得良好的性能。鉴于存在诸多可能的策略,如何最有效地进行微调尚不明确。在本研究中,以 OpenVLA 作为代表性基础模型,研究了 VLA 自适应设计的关键选择,例如不同的动作解码方案、动作表征和用于微调的学习目标。实证分析为优化微调 (OFT) 方案提供了参考,该方案集成了并行解码、动作分块、连续动作表征、基于 L1 回归的简单学习目标,从而全面提升推理效率、策略性能以及模型输入输出规范的灵活性。提出了 OpenVLA-OFT,它是此方案的一个实例,它在 LIBERO 仿真基准上创造了新的最高水平,显著提升了 OpenVLA 在四个任务套件中的平均成功率,从 76.5% 提升至 97.1%,同时将动作生成吞吐量提升了 26 倍。在实际评估中,微调方案使 OpenVLA 能够在双手 ALOHA 机器人上成功执行灵巧、高频的控制任务,并且比使用默认方案进行微调的其他 VLA(Pi0 和 RDT-1B)以及从零开始训练的强模仿学习策略(扩散策略和 ACT)的平均成功率高出 15%(绝对值)。https://openvla-oft.github.io 上开元了 OFT 的代码和预训练模型checkpoint。
1. Introduction
最近 VLA 通过在大规模机器人数据集上微调预训练的VL模型来构建机器人策略,用于低级机器人控制,已经在各种机器人任务中展示了强大的任务性能、语义泛化、语言跟踪能力。尽管微调有其优势,但对于如何在新机器人和新任务上较好地部署 VLA 也至关重要,鉴于发挥空间巨大,目前尚不清楚最有效的适配方法是什么。希望将 VLA 微调到新的机器人设置和任务的机器人学者可能会默认使用与预训练相同的训练方法(或参数高效的变体),但这是否会产生最佳策略尚不明确,而且文献中对替代微调方法的实证分析有限。
先前的研究已开始探索 VLA 自适应策略,其中 Kim 等人提出了通过 LoRA 进行参数高效微调。然而,对于高频控制(25-50+Hz)来说,它们的自回归动作生成速度仍然太慢(3-5 Hz),而且 LoRA 和自回归 VLA 的完全微调在双手操作任务中通常都无法获得令人满意的性能。虽然最近的方法通过更好的动作标记方案提高了效率,实现了 2 到 13 倍的加速,但动作块之间的显著延迟(例如,最近的 FAST 方法为 750 毫秒)仍然限制了高频双手机器人的实时部署。探索能够同时实现令人满意输出速度和质量的替代 VLA 自适应方法仍然是一个尚未深入的研究领域。
在本研究中,使用 OpenVLA(一种代表性的自回归 VLA 模型)作为基础模型,研究了将 VLA 适配到新型机器人和任务的关键设计方法。主要有以下三个关键改动:
- 动作解码方案:(自回归 vs. 并行生成);
- 动作表示:(离散 vs. 连续);
- 学习目标:(下一个词元预测 vs. L1 回归 vs. 扩散)。
研究发现了以下几个相互影响的因素:
- 基于动作分块的并行解码不仅可以提高推理效率,还能提高下游任务的成功率,同时增强模型输入输出规范的灵活性;
- 与离散表示相比,连续动作表示可以进一步提升模型质量;
- 使用 L1 回归目标对 VLA 进行微调,可以获得与基于扩散的微调相当的性能,同时提供更快的训练收敛和推理速度。
基于上述内容,作者推出了 OpenVLA-OFT,一种优化微调 (OFT) 的实现,集成了并行解码和动作分块、连续动作表示、 L1 回归目标,以提高推理效率、任务性能、模型输入输出灵活性,同时保持算法简单性。在标准化 LIBERO 模拟基准和真实的双手 ALOHA 机器人上的灵巧任务上进行了实验。在 LIBERO 中,OpenVLA-OFT 在四个任务类型中实现 97.1% 的平均成功率,优于微调的 OpenVLA 策略 (76.5%) 和 Pi0 策略 (94.2%),同时在使用 8 步动作块实现 26 倍的动作生成速度提升。对于现实世界的 ALOHA 任务,使用 FiLM 以增强语言基础,将增强配置表示为 OFT+。 OpenVLA-OFT+ 能够根据用户的提示成功执行灵巧的双手操作任务,例如折叠衣物和操控目标食物(Fig.1)。其平均成功率比经过微调的 VLA(Pi0 和 RDT-1B)以及从零开始训练的优秀模仿学习策略(扩散策略和 ACT)高出 15%(绝对值)。OpenVLA-OFT+ 采用 25 个时间步长的动作块,吞吐量比基础 OpenVLA 提高了 43 倍,这表明全新的微调方案能够实现实时机器人控制,并具有强大的任务执行性能和语言理解能力。
2. Related Work
先前的研究已经利用语言和视觉基础模型来增强机器人能力,利用它们作为预训练的视觉表示来加速机器人策略学习,用于机器人任务中的物体定位,以及高级规划和推理。最近,研究人员探索了微调 VLM 来直接预测低级机器人控制动作,产生了VLA模型,这些模型已经证明能够有效地泛化到分布外的测试条件和未知的语义概念。上述工作主要侧重于模型开发,而本文则专注于探索一种用于微调此类模型的方法,并利用从实证分析中获得的结果来证明单个设计决策的合理性。
尽管微调对于实际的VLA部署至关重要,但对有效微调方案的实证分析仍然有限。Kim等人研究了各种参数更新策略,并从他们的研究结果表明,LoRA微调能够有效适应在低控制频率(< 10 Hz)下运行的单臂机器人,但他们的研究并未扩展到高控制频率(25-50+ Hz)的双手机器人,这是一种更为复杂的控制场景。本文作者通过探索VLA自适应设计决策来解决这一问题,以便在配备25 Hz控制器的实际双手机械手上实现快速推理和可靠任务执行。
Belkhale、Sadigh、Pertsch 等人近期的研究通过新的动作标记化方案提高了 VLA 效率,使用矢量量化或基于离散余弦变换的压缩来表示动作块,所用的标记比简单的按维度分割(如 RT-2 和 OpenVLA )要少。虽然这些方法使自回归 VLA 实现了 2 到 13 倍的加速,但本文探索了超越自回归建模的设计决策,因为自回归建模本质上仍然受到迭代生成的限制。并行解码方法与动作分块结合使用时,可实现显著的加速:吞吐量为 26 到 43 倍,延迟却低得多(对于具有一个输入图像的单臂任务为 0.07 毫秒,对于具有三个输入图像的双手任务为 0.321 毫秒)。
另一项研究使用扩散或流匹配等生成方法对高频双手操作进行有效 VLA 微调。虽然这些基于扩散的 VLA 通过同时生成多时间步长的动作块实现了比自回归 VLA 更高的动作吞吐量,但它们在训练速度较慢、推理时需要多个去噪或积分步骤的情况下引入了计算权衡。此外,这些扩散 VLA 在架构、学习算法、视觉-语言融合方法和输入-输出规范方面差异很大,而哪些设计元素对性能的影响最显著仍不清楚。作者通过实验证明,使用更简单的 L1 回归目标进行微调的策略可以在任务性能上与更复杂的方法匹敌,同时实现显著更高的推理效率。
3. Preliminaries
Original OpenVLA formulation
使用 OpenVLA 作为基础 VLA,这是一个包含 7B 参数的操作模型,通过在 Open X-Embodiment 数据集的 100 万个 episode 上对 Prismatic VLM 进行微调得到的,有关该架构详细信息,请参阅Appendix. A。OpenVLA 的原始训练在每个时间步使用自回归预测 7 个离散机器人动作 token:3 个用于位置控制,3 个用于方向控制,1 个用于夹持器控制。采用下一个 token 预测和交叉熵损失作为学习目标(类似于语言模型)。在接下来的几节中,文章将探索其他方案,包括并行解码、连续动作表示、L1 回归和扩散建模等学习目标。
Action chunking
先前的研究表明,动作分块(即预测和执行一系列未来动作而无需中间重新规划)可以提高许多操作任务的策略成功率。然而,OpenVLA 的自回归生成方案使动作分块变得不切实际,因为在 NVIDIA A100 GPU 上,即使生成一个单时间步长的动作也需要 0.33 秒。对于时间步长为 K K K、动作维度为 D D D 的块大小,OpenVLA 需要 K D KD KD 次顺序解码器前向传递,而没有分块则只需 D D D 次传递。这种 K K K 倍的延迟增加使动作分块对于高频机器人控制来说不切实际。在下一节中,将介绍一种可实现高效动作分块的并行生成方案。
4. Studying Key VLA Fine-Tuning Design Decisions
在本节中,首先概述了使 VLA 适应新型机器人和任务的关键设计,并提供了有关其实施的详细信息。
A. VLA Fine-Tuning Design Decisions
现有的使用基础模型的自回归训练方案对 VLA 进行微调的方法面临两个主要限制:推理速度慢(3-5 Hz),不适合高频控制;在双手操作器上执行任务不可靠。为了应对这些挑战,作者研究了 VLA 微调的三个关键设计组件:
Action generation strategy
如 Fig.2 left,对比:需要逐个标记顺序处理的自回归生成、同时生成所有动作并实现高效动作分块的并行解码;
Action representation
如 Fig.2 right,通过基于softmax的token预测处理的离散动作(将标准化动作进行256个bin的离散化),以及由MLP动作头直接生成的连续动作。
- 对于离散动作:语言模型解码器的最终隐藏状态被线性投影到logits中,再通过softmax运算处理,形成动作token的概率分布;
- 对于连续动作:最终隐藏状态则由单独的动作头MLP直接映射到标准化的连续动作。
Learning objective
如 Fig.2 right,比较:针对离散动作使用下一个标记预测进行微调的策略、针对连续动作使用 L1 回归进行微调的策略、针对连续动作使用条件去噪扩散进行微调的策略。
使用 OpenVLA 作为基础模型,由于训练数据集相对较小(500 个演示,而预训练有 100 万个演示),所以通过 LoRA 微调对其进行了调整。
B. Implementing Alternative Design Components
OpenVLA 基础模型最初采用自回归方法生成离散动作 token,并通过下一个 token 预测进行优化。这里在保持原始预训练操作不变的情况下,使用了其他方案以进行微调,更多细节见 Appendix. B。
Parallel decoding and action chunking
与需要顺序标记预测的自回归生成不同,并行解码使模型能够在单次前向传递中将输入嵌入映射到预测的输出序列。这里修改了模型,使其接收空的动作嵌入作为输入,并用双向注意力机制取代因果注意力掩码,从而使解码器能够同时预测所有动作。这将动作生成从 D D D 次顺序传递简化为单次传递,其中 D D D 是动作维度。
并行解码延伸至动作分块:为了预测多个未来时间步的动作,只需在解码器的输入中插入额外的空动作嵌入,然后将其映射到一组未来动作。对于大小为 K K K 的块,该模型在一次前向传递中预测 K D KD KD 个动作,从而将吞吐量提升 K K K 倍,同时最大程度地降低延迟影响。虽然并行解码在理论上可能不如自回归方法具有表现力,但实验结果表明,它在各种任务中均未出现性能下降。
Continuous action representations
OpenVLA 最初使用离散动作标记,其中每个动作维度被归一化为 [ − 1 , + 1 ] [-1, +1] [−1,+1],并均匀离散化为 256 个区间。虽然这种方法非常方便,因为不需要对底层 VLM 进行架构修改,但离散化过程可能会牺牲细粒度的动作细节。这里研究连续动作表征,并使用以下两个来自模仿学习的常用学习目标:
- 通过将解码器的输出嵌入层替换为 MLP 动作头来实现 L1 回归,该动作头将解码器层的最终隐藏状态直接映射到连续动作值。该模型的训练目标是 最小化预测动作与真实动作之间的平均 L1 差异,从而保持并行解码的效率优势,同时潜在地提高动作精度;
- 实现了条件去噪扩散模型,其中模型学习了正向扩散过程中添加到动作样本中的噪声。在推理过程中,该策略通过反向扩散逐渐对带噪动作样本进行去噪,以生成真实的动作。虽然这种方法可能提供更具表现力的动作模型,但它在推理过程中需要多次正向传递(在本文的实验中为 50 个扩散步骤),即使采用并行解码也会影响部署延迟。
Additional model inputs and outputs
虽然原始的 OpenVLA 仅能处理单个摄像头视图,但某些机器人包含多个视角和额外的机器人状态信息。本文实现了一个灵活的输入处理流程:对于摄像头图像,使用 OpenVLA 的双视觉编码器为每个视图提取 256 个块嵌入,并通过共享投影网络将这些嵌入映射到语言嵌入空间;对于低维机器人状态输入(例如关节角度和夹持器状态),使用单独的映射网络将它们映射到与一个额外输入嵌入相同的嵌入空间中。
所有输入嵌入(视觉特征、机器人状态、语言标记)在传递到解码器之前都会沿序列维度拼接。这种统一的潜在表征使模型能够在生成动作时关注所有可用信息。结合并行解码和动作分块,该架构可以高效处理丰富的多模态输入,同时生成多个时间步的动作,如Fig.1 所示。

C. Augmenting OpenVLA-OFT with FiLM for Enhanced Lan- guage Grounding
Challenges with language following
在部署包含腕戴式摄像头等多视角的 ALOHA 机器人系统时,由于视觉输入中存在虚假关联,策略在语言跟踪方面可能会遇到困难。训练过程中,策略可能会在预测动作时学习抓住这些虚假关联,而不是正确的语言指令,导致测试时无法很好地执行用户命令。此外,语言输入可能仅在任务的特定时刻才起到决定性作用,例如,在第6节讨论的“将 X 舀入碗里”的任务中,握住勺子并决定要舀哪种食材之后。因此如果没有特殊技巧,训练模型以在恰当时间关注语言输入可能会非常困难。
FiLM
为了增强语言跟随能力,这里采用了特征线性调制 (FiLM) ,将语言嵌入到视觉表征中,使模型更加关注语言输入。根据任务描述计算语言嵌入 x x x 的平均值,并将其映射以获得缩放和平移向量 γ \gamma γ 和 β \beta β 。这些向量通过仿射变换调制视觉特征 F F F:
F i L M ( F ∣ γ , β ) = F ^ = ( 1 + γ ) ⊙ F + β FiLM(F|\gamma, \beta)=\hat{F}=(1+\gamma)\odot F+\beta FiLM(F∣γ,β)=F^=(1+γ)⊙F+β
一个关键的实现细节是选择什么来代表视觉变换器中调制的“特征”。虽然可能自然而然地将单个块嵌入视为要调制的特征,但作者发现这种方法会导致语言理解能力较差。因此,借鉴 FiLM 在卷积网络中的运作方式(调制通过缩放和平移整个特征图以空间无关的方式使用),将 γ \gamma γ 和 β \beta β 的每个元素应用于所有视觉块嵌入中的相应隐藏单元,以便 γ \gamma γ 和 β \beta β 能够影响所有块嵌入。具体而言,这使得 γ \gamma γ 和 β \beta β 成为 D V i T D_{ViT} DViT 维向量,其中 D V i T D_{ViT} DViT 是视觉块嵌入中隐藏维数。
通过每个视觉transformer模块的自注意力层之后、前馈层之前应用 FiLM,为每个模块配备单独的映射(参见Fig.8)。更多实现细节请参见Appendix. C。仅在第六节讨论的 ALOHA 实验中使用 FiLM,因为多摄像机视角会导致视觉输入中出现更多的伪相关性。

5. Experiments: Evaluation VLA Fine-Tuning Design Decisions
本节通过控制实验变量来评估设计决策的效果,旨在回答三个关键问题:
- How does each design decision affect the fine-tuned policy’s success rate on downstream tasks? 每个设计如何影响微调策略在下游任务上的成功率;
- How does each design decision affect model inference efficiency (action generation throughput and latency)? 每个设计如何影响模型推理效率(动作生成吞吐量和延迟);
- How do the alternative fine-tuning formulations affect flexibility in model input-output specifications? 其他微调方式如何影响模型输入输出规范的灵活性;
A. LIBERO Experimental Setup
基于 LIBERO 仿真基准进行评估,该基准以 Franka Emika Panda 机械臂为模拟对象,演示内容包括摄像头图像、机器人状态、任务标注、末端执行器姿态动作增量。使用四个任务类型:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 、LIBERO-Long 每个任务类型提供 10 个任务的 500 个专家演示,以评估策略在不同空间布局、物体、目标和长视域任务中的泛化能力。
按照 Kim 等人的方法,剔除失败的演示,并通过 LoRA 在每个任务类型上 独立微调 OpenVLA。对非扩散方法进行 50-150K 梯度步长的训练,对扩散方法(收敛速度较慢)进行 100-250K 梯度步长的训练,在 8 个 A100/H100 GPU 上使用 batch_size=64-128 。每 50K 步测试一次checkpoint,并统计每次运行的最佳性能。除非额外说明,否则策略会接收一个第三人称图像和语言指令作为输入。对于使用动作分块的方法,将块大小设置为 K = 8 K = 8 K=8 以匹配扩散策略基线,并在重新规划之前执行完整的块,作者发现这可以同时提高速度和性能。有关超参数详细信息参阅Appendix. D。
本研究的主要基准是使用原始微调方案进行微调的基础 OpenVLA 模型。然而,为了进行更广泛的对比,还纳入了先前SOTA模仿学习方法的 LIBERO 测试结果,例如 Diffusion Policy 、Octo 、DiT Policy 、Seer 、MDT 和 Pi0。其中 Seer 使用了额外的 LIBERO-90 预训练数据。
B. LIBERO Task Performance Comparisons
为了获得令人满意的部署效果,机器人策略必须能够可靠地执行任务。首先评估不同的 VLA 微调方案如何影响 LIBERO 基准测试的成功率。
实验效率分析表明,并行解码 (PD) 和动作组块 (AC) 的结合对于输出高频控制指令(25-50+ Hz)而言至关重要,尤其对于动作维度数量翻倍的双手机器人而言。因此,评估了两种技术联合使用的 OpenVLA 策略,比较了使用离散动作、使用 L1 回归的连续动作、使用扩散的连续动作的变体。
Table.1中的结果表明,并行解码和动作分块不仅增加了吞吐量,而且显著提高了性能,与自回归 OpenVLA 策略相比,平均成功率提高了 14%(绝对值)。在 LIBERO-Long 中尤为明显,表明 动作分块有助于捕捉时间依赖性并减少复合误差,最终使任务执行更流畅、更可靠。此外,使用连续动作变体比离散动作变体进一步提高了 5%(绝对值)的成功率,这可能是因为动作预测的精度更高。L1 回归和扩散变体实现了相近的性能,表明即使使用简单的 L1 回归,大容量 OpenVLA 模型也可以有效地模拟多任务动作分布。

C. LIBERO Inference Efficiency Comparisons
高效的推理对于在高频控制机器人上部署 VLA 至关重要。这小节评估并行解码 (PD)、动作分块 (AC) 和连续动作表示如何影响模型推理速度。在 NVIDIA A100 GPU 上对每个模型变体执行 100 次来测量平均延迟(生成一个机器人动作或动作块的时间)和吞吐量(每秒生成的总动作数)。每次处理一张 224 x 224 像素的图像 + 一个 LIBERO 语言示例指令(“拿起字母汤并将其放入篮子中”)。
Table.2 结果表明,并行解码通过 将策略解码器部分的 7 次连续前向传递替换为一次传递,减少了延迟并将吞吐量提高了 4 倍。由于解码器中的注意序列更长,添加动作分块( K = 8 K = 8 K=8)会使延迟增加 17%,但与并行解码结合使用时,吞吐量显著提高,比基线 OpenVLA 提高了 26 倍。L1 回归的连续动作变体在计算效率上显示出可以忽略不计的差异,因为与基本模型相比,额外的 MLP 动作头增加的计算成本很小。DP变体模型需要 50 个去噪步骤,因此延迟增加了 3 倍。然而,通过并行解码和分块,它仍然比基线 OpenVLA 实现了 2 倍的吞吐量。这意表明,尽管动作块之间的暂停时间更长,但扩散变体仍然比原始自回归变体更快地完成机器人事件。

D. Model Input-Output Flexibility
如第4节 B 部分所述,并行解码使 OpenVLA 能够以最小的延迟增量生成动作块,从而增强模型输出的灵活性。并行解码和动作块划分带来的显著加速也为处理更多模型输入创造了空间。通过添加机器人本体感受状态和机器人腕戴式摄像头图像等额外输入对 OpenVLA 进行微调来证明这一点,传入语言模型解码器的视觉块嵌入数量从 256 增加到 512。尽管输入序列长度大幅增加,但经过微调的 OpenVLA 策略仍保持了高吞吐量(71.4 Hz)和低延迟(0.112 秒),如Table.2所示。
在 LIBERO 基准上对这些策略进行额外输入评估后,作者发现所有任务类型的平均成功率均有进一步提升(Table.1)。同时,增强型微调 OpenVLA 策略的表现甚至优于最佳微调 Pi0 策略(得益于基础模型的更大规模预训练和更复杂的学习目标,即光流匹配)以及多模态扩散transformer (MDT) 。即便使用比 VLA 更少数据进行预训练的更简单基础模型,自适应设计决策能够提升微调 OpenVLA 的能力,使其在 LIBERO 基准上创下新的最高水平。
E. Optimized Fine-Tuning Recipe
基于任务性能、推理效率、模型输入输出灵活性方面的改进,作者提出了一种针对 VLA 自适应的优化微调 (OFT) 方案,它结合了三个关键部分:
- parallel decoding with action chunking. 带有动作分块的并行解码;
- continuous action representation. 连续动作表征;
- L1 regression objective. L1回归目标;
上述设计的共同作用,产生了强大的策略,这些策略可以在保持算法简单性的同时实现高频部署。使用 OFT 方法基于 OpenVLA 基础模型进行微调的策略称为 OpenVLA-OFT。在第6部分,作者将使用高频控制机器人评估 OpenVLA-OFT 在现实世界中执行灵巧双手操作任务的能力。
F. Additional Experiments
鉴于替代的微调方案以及额外的模型输入输出,会导致基础 VLA 的预训练部分和微调部分之间的分布偏移,一个合理的疑问是基础 VLA 的预训练表征是否有用,以及是否对效果产生任何影响。Appendix. G中的消融实验回答了这个问题,消融 Open-VLA 的预训练阶段,并直接使用 OFT 配方对底层的预训练 VLM 进行微调。如Table.14所示,基础 OpenVLA 预训练表征确实仍然对机器人策略学习有益,删除后会 LIBERO 评估的平均成功率(绝对值)下降 5.2%。

6. Experiments: Adapting OpenVLA to a Real-World ALOHA Robot
上一节实验结果证明了 OpenVLA-OFT 在仿真环境中的有效性,但在现实世界中,与预训练阶段截然不同的机器人平台上部署,对于展现其广泛的适用性至关重要。因此,作者在 ALOHA 机器人(一个以高控制频率运行的真实双手操作平台)上评估了优化后的微调方案的有效性,以及OpenVLA 的预训练(仅涉及单臂机器人数据)中评估了先前没有的新型灵巧操作任务。
先前的研究表明,使用自回归VLA进行原始LoRA微调对于此类任务并不适用,因为其吞吐量(单臂机器人为3-5 Hz,双手任务则更低)远低于实时操作所需的25-50 Hz。因此,这里将此基准排除在实验之外,并比较稍后讨论的更有效的方法。
在本节中,使用 VLA 微调方案 (OFT+) 的增强版本,该方案还包含特征线性调制 (FiLM),用于增强语言基础,如第4节 C 部分所述。通过此增强微调方案得到的 OpenVLA 策略称为 OpenVLA-OFT+。
A. ALOHA Experimental Setup
ALOHA 平台包含两个 ViperX 300 S 机械臂、三个摄像头视角(一个自上而下,两个腕式)、机器人状态输入(14 维关节角度)。其运行频率为 25 Hz(低于固有的 50 Hz,以便在保持机器人控制平稳的同时加快推理速度),动作为关节的角度。此配置与 OpenVLA 的预训练方案截然不同,后者仅包含单臂机器人数据、来自第三人称视角的单摄像头视角、无机器人状态输入、低频控制(3-10 Hz)、相对末端执行器姿态动作。这种分布变化对该模型的适应性提出了挑战。
作者设计了四个代表性任务,测试可变形物体操纵、长视野技能、工具使用和语言驱动控制:
- fold shorts:在桌上连续用双手折叠两次白色短裤。20次演示用于训练,评估10次;
- fold shirt:通过多次同步双手折叠白色T恤,测试高接触、长距离操作。30次演示用于训练,评估10次;
- scoop X into bowl:用左臂将碗移到桌子中央,用右臂的金属勺舀取指定食材(“葡萄干”、“杏仁和绿色M&M巧克力豆”或“椒盐脆饼”)。45次演示用于训练(每种食材15次),评估12次(每种食材4次);
- put X into pot:用左臂打开锅盖,用右臂放置指定物品(“青椒”、“红椒”或“黄玉米”),然后关上锅盖。300 次演示用于训练(每个物品 100 次),评估24 次(12 次分布内,12 次分布外);
在每个任务上使用 OFT+ 对 OpenVLA 进行独立微调,梯度步骤为 50-150K(总批次大小为 32,使用 8 个 A100/H100-80GB GPU),动作块大小为 K = 25 K = 25 K=25。在推理时,执行完整的动作块后再重新查询模型以获取下一个块。
B. Methods in Comparison
ALOHA 任务对 OpenVLA 作为基础模型提出了适应性挑战,因为其与预训练平台在控制频率、动作空间和输入方式方面存在巨大差异。为此,将 OpenVLA-OFT+ 与较新的 RDT-1B 和 Pi0 进行比较,这些模型是在双手操作数据上进行预训练的(预计在下游任务上可能会表现得更好),并使用各自作者推荐的方案对这些模型进行微调后进行评估。此外,为了与计算效率更高的替代方案进行比较,作者还评估了两个流行的模仿学习基线:ACT 和 Diffusion Policy 这两个模型都是从头开始训练的。
为了在这些基线方法中实现语言跟踪,作者使用语言条件化实现。对于 ACT 修改了 EfficientNet-B0 ,使其能够通过 FiLM 处理 CLIP 语言嵌入;对于扩散策略,使用 DROID 数据集,以 DistilBERT 语言嵌入为条件进行动作去噪,并进行了修改以支持双手控制和多图像输入。
C. ALOHA Task Performance Results
在四项 ALOHA 任务上评估了所有方法:ACT、Diffusion Policy、RDT-1B、Pi0 、OpenVLA-OFT+。为了提供更细致的评估,使用Appendix. F 种的的评分标准。Fig.4 显示了总体表现得分,而Fig.5 则专门追踪了语言相关任务的语言理解能力。


Performance of non-VLA baselines
从零开始训练的基线方法表现出了不同程度的性能:
ACT虽然能够完成基本任务,但其动作精度较低,整体性能也最低;DP展现出更强的能力,在折叠和舀取衣物任务上的可靠性堪比甚至超越了RDT-1B。然而在“将 X 放入锅中”的任务上表现不佳,因为该任务需要更大的训练数据集,这表明与基于 VLA 的方法相比,其可扩展性有限。
Performance of fine-tuned VLAs
经过微调的 VLA 策略通常比从零开始的基线策略在任务执行和语言跟随方面表现更好。在 VLA 中观察到截然不同的特征:
RDT-1B通过“交替条件注入”方法实现了良好的语言跟随,但在处理闭环反馈方面表现出局限性。如Fig.7所示,它经常无法纠正“将 X 舀进碗里”任务中的错误——例如,在没将真正目标舀到碗里后继续将配料倒入一个假想的碗里,这表明其过度依赖本体感受状态而不是视觉反馈;Pi0表现出更稳健的执行力,动作更流畅,对反馈的反应更好,通常能够成功地从最初的失败中恢复(如Fig.7所示),虽然语言跟随能力略逊于RDT-1B,但 Pi0 的整体任务完成率更高,使其成为最强的基线策略;OpenVLA-OFT+在任务执行和语言跟踪方面均取得了最高的性能,如Fig.6所示。基础OpenVLA模型仅基于单臂数据进行预训练,而RDT-1B和Pi0则基于大量的双手数据集(分别为 6000 集和 8000 小时的双手数据)进行预训练。这表明对于下游性能而言,微调技术可能比预训练数据覆盖率更为重要。
| Fig.6 | Fig.7 |
|---|---|
![]() |
![]() |
Ablation study of FiLM
通过消融实验评估了 FiLM 在 OpenVLA-OFT+ 方法中的重要性,并在后两项任务中评估策略的语言跟随能力。这两项任务需要良好的语言基础才能成功执行。如Fig.5 所示,在两项任务中,语言跟随率都下降到了 33%,相当于随机选择正确的指令,表明 FiLM 对于防止模型过度拟合虚假视觉特征以及确保对语言输入给予适当的关注至关重要。
D. ALOHA Inference Efficiency Comparisons
测量每种方法 100 次推理动作吞吐量和延迟来评估推理效率,结果见Table.3。原始的 OpenVLA 算法即使只使用额外的腕部摄像头输入,吞吐量仅为 1.8 Hz,延迟为 0.543 秒。相比之下,OpenVLA-OFT+ 实现了 77.9 Hz 的吞吐量,尽管必须处理两张额外的输入图像,其延迟比之前 LIBERO 实验中的策略更高。
其他模型由于架构较小,吞吐量高于 OpenVLA-OFT+: ACT(8400 万)、Diffusion Policy(1.57 亿)、RDT-1B(12 亿)和 Pi0(33 亿)。而 OpenVLA 拥有 75 亿个参数。ACT 通过基于 L1 回归的单次动作生成(类似 OpenVLA-OFT+)与其紧凑的架构相结合,实现了最高的速度。此外,尽管 Pi0 参数规模较大,但由于其优化的 JAX 实现(所有其他方法均在 PyTorch 中实现),其速度优于 RDT-1B 和 Diffusion Policy。
OpenVLA-OFT+ 的吞吐量(77.9 Hz)接近 RDT-1B(84.1 Hz),尽管前者比后者大 7 倍,因为它在一次前向传递中生成动作,而不需要像 RDT-1B 那样进行多个去噪步骤。
7. Discussion
作者对 VLA 微调设计决策的研究揭示了不同组件如何影响 推理效率、任务表现、模型输入输出灵活性、语言跟随能力,这些因素促成了优化微调 (OFT) 方案,该方案通过 并行解码、动作分块、连续动作、L1 回归、(可选)FiLM 语言条件 ,使 VLA 能够有效地适应新型机器人和任务。OFT 的成功对于 OpenVLA 尤为显著:
- 尽管在预训练期间没有双臂或多视角图像输入样本,但使用 OFT 微调的
OpenVLA可以适应此类配置,并且性能对标甚至超越较新的基于扩散的 VLA(Pi0和RDT-1B),后者在预训练期间包含双臂和多输入图像。这表明作者提出的微调方案可以对最终性能产生重大影响,并且现有的 VLA 可以成功适应新的机器人系统,而无需从头开始进行大量的重新训练; - 基于 L1 回归的简单方法结合
OpenVLA等高容量模型,能够有效适应新型机器人和任务; - 与基于扩散的方法相比,该方法具有实际优势:加快训练收敛和推理速度的同时保持强大的性能,使其特别适合实际的机器人应用。
8. Limitations
虽然 OFT 方案显示出将 VLA 应用于新型机器人和任务的前景,但仍存在几个重要问题:
Handling multimodal demonstrations
实验使用为每个类型的任务采用一致的策略。虽然 L1 回归可以通过鼓励策略学习演示动作中的中值模式来平滑训练演示中的噪声,但它可能难以准确建模真正的多模态动作分布,因为同一输入存在多个有效动作,这对生成实现任务的替代序列可能并不理想。相反,基于DP的方法可能会更好地捕捉这种多模态性,但存在对训练数据次优解过拟合的风险(有关这些细微差别的讨论和视频演示,请参阅 项目网站)。理解 OFT 在多模态演示中的有效性仍然是未来工作的重要方向。
Pretraining versus fine-tuning
研究重点是针对下游任务对 VLA 进行微调。OFT 的优势能否有效扩展到预训练,或者像DP那类更具表现力的算法是否适合大规模训练。
Inconsistent language grounding
ALOHA 实验表明,不包含 FiLM 的 OpenVLA 能力较差,而 LIBERO 仿真基准实验中并未出现此类问题,造成这种差异的原因是否是由于预训练中缺乏双臂数据,这一点尚未验证。
更多推荐


所有评论(0)