一文看懂视觉语言动作模型（VLA）及其应用

那其实到今天，理想 VLA应该要上车了，小鹏也发布下一代图灵芯片的车型要上 VLA，基本上所有用英伟达 Thor 超过500Tops的大算力芯片都会切换到 VLA这个算法概念上。

程序猿李巡天

6065人浏览 · 2025-07-09 20:27:46

程序猿李巡天 · 2025-07-09 20:27:46 发布

为什么 VLA呢？
VLA 怎么样的结构？
VLA 怎么起源的？**
**
*VLA 还在哪里广泛研究和应用？***
**
*VLA 在当前国内外自动驾驶的应用情况？*

本文通过自己的行业认知，结合各个 VLA Paper 来做一个科普，希望给大家带来一些信息和启发。

1**.**为什么 VLA呢？

VLA 除了大算力需求这个缺点，其他都是优点。

通过预训练提高数据效率：

VLA 模型可以使用视觉-语言对（例如，图像和字幕或教学视频）在大规模互联网或模拟数据集上进行预训练，从而减少对特定任务数据的依赖。例如自动驾驶可能不要再讲你有1000万clips数据，这些数据可能都是重复和无效的。VLA 这种预训练有助于引导其功能，使其能够以极少的微调很好地推广到下游任务中。

更好的人类指令交互：

可以听懂人类的语言，看懂人类的环境，VLA 模型可以解释和执行人类的指令，例如“前面红绿灯路口左转”或“开进前面的停车场”，这是从手动编码的动作策略或符号规划管道进行的范式转变。

端到端大模型统一训练：

VLA 模型本质上也是一种端到端算法，它将感知、任务理解和控制合成一个整体模块，对场景、目标和行动方式进行联合推理。这种整体方法提高了鲁棒性并简化了系统设计。

跨领域和跨平台泛化：

视觉和语言的共享嵌入空间使单个模型能够跨任务、对象和机器人实例迁移知识。这也就是当前不少新势力车企既能造车也能造机器人，采用VLA算法架构和设施都可以泛化。

简而言之，VLA 模型为构建能够在多样化和动态的现实环境中理解和执行任务的通用机器人包括自动驾驶奠定了良好的基础，使其成为下一代具身人工智能。

2**.**VLA 怎么样的结构？

当前自动驾驶也好，机器人也罢，他们执行的任务都需要融合视觉和语言信号，以理解空间关系、预测驾驶/行动意图并生成情境感知的驾驶或者行为。

一般 VLA需要包含以下三个结构：

视觉编码器（例如 CNN、ViT、CLIP），对场景中的物体（例如道路、车辆、行人）进行分割和分类，将像素转换为概念Token化。
语言模型（例如Deepseek、LLaMA-2、阿里的 Qwen类别LLM、Transformer），将指令编码为高维嵌入，推理给出高阶的意图
策略模块或规划器(Policy modules or Planners)，使车辆能够推理高级目标并将其转化为低阶精细化的运动。

这些模型通常采用多模态融合技术（例如交叉注意、级联嵌入或标记统一），以将视觉类信息与文本指令对齐。

与传统的视觉运动流程不同，VLA 支持语义基础，从而实现情境感知推理、可供性检测和时间规划。

典型的 VLA 模型通过摄像头或激光雷达等传感器数据观察环境，可以解读用语言表达的目标（例如“前方右转”），并输出高阶（例如左转）或者低阶的精细化运动序列（例如方向2度，前进2m等）。

3**.** VLA 怎么起源的？

VLA 模型的概念形成于 2021-2022 年左右，由 Google DeepMind 的 Robotic Transformer 2 (RT-2) 等项目开创。

提出了一种变革性架构，将感知、推理和控制统一在一个框架内。

VLA 集成了视觉输入、语言理解和运动控制功能，使具身智能体能够感知周围环境、理解复杂指令并动态执行适当的动作。

VLA 一词最早出现在 Google RT-2论文中，该论文使用 PaLI-X 和 PaLM-E 作为将“像素转化为动作”的主干。

随着Google RT-2论文的爆火和引用，VLA也被广泛传播。

4**.** VLA 还在哪里广泛研究和应用？

VLA应该是在机器人行业发展更迅速，毕竟当前机器人产业创业和实验成本都低于汽车。

所以，我们从机器人产业的相关研究来看看 VLA应用的发展。

截至 2025 年本文发布时间，业内认为，比较先进的视觉语言动作模型 (VLA)采用的是双层专家系统，结合 VLM 和Diffusion扩散解码器。

这两个专家系统共同模仿了丹尼尔·卡尼曼的双重过程理论，将高级规划与低级快速执行相结合。

专家系统 2（“慢思考”）：视觉语言模型( VLM ) 将视觉和文本作为上下文，对其所见的复杂场景和中间任务做出方法论决策。由于其对机器人世界的出色理解，这可以指导机器人的整体行为。它充当高级规划器，通过对多模态输入进行推理，深入到多个中间子任务并生成轨迹，从而实现其主要目标。
专家系统 1（“快速思考”）：Transformer 解码器或Diffusion扩散模型充当低级控制和灵巧运动的动作专家。扩散模型具有丰富的图像先验知识，该系统利用其卓越的语义场景关系，翻译并执行系统 1 的引导路径或指令，从而执行敏捷且精细的运动动作。

例如Nvidia Groot N1和FigureAI 的 Helix，采用此类策略

Nvidia 发布的 GR00T N1 是通用人形推理和控制的开放基础模型。

N1 是一个 2B 参数模型（eagle2_hg_model主干），基于 Omniverse 和 Cosmos 的海量合成数据以及人形机器人数据集的真实捕获数据进行训练，该预训练策略可以无缝适配跨实体系统。

在 GR00T N1中环境感知、语言指令和机器人状态被编码为标记，并传递给系统 2 和系统 1，以预测可以直接控制机器人的动作标记。

规划器将长期目标（例如“清理桌子”）解析为原子子任务，而低级控制器则确保实时执行。

系统 2： VLM 通过推理来规划正确的行动，用视觉和语言指令解释物理世界。
系统 1：Diffusion Transformer 扩散变压器，遵循系统 2 的指令，通过去噪以 120Hz 产生有意义的平滑和精确的运动动作，延迟为 10 毫秒。

Figure AI 的 Helix 类似，该系统由两个主要部分组成即，

S2 是 VLM 主干，是一种较慢的思维模型，可以处理场景的视觉线索和语义目标，S2 基于一个拥有 7B 参数的开源、开放权重 VLM 构建。
S1 是一种以 200Hz 运行的快速模型，能够快速适应伙伴机器人的实时动作，S1 是一个 80M 参数的交叉注意力编码器-解码器 Transformer，负责处理低级控制。它依赖于一个全卷积、多尺度视觉主干网络进行视觉处理，该主干网络由完全在模拟环境中完成的预训练初始化。

虽然 S1 接收与 S2 相同的图像和状态输入，但 S1以更高的频率处理它们，以实现响应更快的闭环控制。

来自 S2 的潜在向量被投影到 S1 的标记空间中，并沿着序列维度与 S1 视觉主干网络中的视觉特征连接起来，从而提供任务调节。

Helix 的训练方式是，它映射视觉场景和文本命令的原始像素，以产生具有标准回归损失的连续动作。

此外，比较早期和学术的 VLA模型有：

OpenVLA

它由四个主要部分组成：

视觉编码器：采用双视觉编码器方法，结合 DINOv2（约 3 亿参数）和 SigLIP（约 4 亿参数），接收图像并创建嵌入的扁平化块。DINOv2 擅长处理空间关系，而 SigLIP 则提供强大的语言对齐特性。
投影：使用 MLP 投影将视觉嵌入映射到 LLM 的共享嵌入空间中。
LLM：Llama2 7B 模型接收语言指令并进行标记化。视觉嵌入和文本标记一起作为序列传递给 LLM，以生成诸如位置、旋转和夹持器状态变化等动作，这些动作可直接用作连续信号来控制机器人的末端执行器。
动作解码：动作解码给执行器执行。

谷歌的 Robotic Transformer (RT-2)

它由预训练的 PaLI-X (55B) 作为视觉模型，以及 PaLM-E (12B) 作为主干模型，并与视觉数据和加权后的机器人动作数据共同训练。

它接收机器人的摄像头输入（图像）和 NLP 查询，并输出离散的动作 token。这些 token 随后被去 token 化，生成基于代码的指令，这些指令可以控制机器人

Physical Intelligence的 π

π 推出的用于通用机器人控制的基础视觉-语言-动作流 VLA模型,此 VLA 模型在图像和文本标记的末尾附加了额外的动作和状态标记，类似于把Detoken也组合进来了，它包含:

一个约 30 亿预训练的 Paligemma VLM 模型作为基础骨干，
一个 3 亿的扩散模型作为基于 π 跨实体机器人数据集训练的动作专家。

伯克利的SuSIE

SuSIE（SUbgoal Synthesis via Image Editing (SuSIE)）更是一绝了，他采用的方法是通过将图片“编辑”成一个有意义的子目标，然后使用低级目标达成策略来实现该子目标来执行该命令。

首先利用一个简单的图像生成模型，根据给定目标来生成未来状态图片。
然后执行机构依靠低级策略来确定精确的运动驱动，完成机器动作。

显然在机器人的产业和学术界 VLA做了很多的探索，那么当前汽车界使用的呢？

5**.**VLA 在当前自动驾驶的应用情况？

最早在汽车智能驾驶上应用 VLA的应该是英国自动驾驶创业公司Wayve，他在 2023 年 9 月推出的 LINGO-1算法就在自动驾驶上应用了 VLM，他可以生成连续的评论，解释驾驶行为背后的原因。

这可以帮助用户用自然语言理解自动驾驶模型正在关注什么以及它正在做什么。

到了2024年3月份，Wayve就发布了其 VLA模型 LINGO-2。

目前 Wayve已经和 Uber合作在美国和英国部署L4 robotaxi。日产将在2027年基于Wayve的技术推出下一代ProPilot智能辅助驾驶。

另外一家推出过类似 VLA概念的就是Google自动驾驶公司Waymo。

Waymo的EMMA，是Waymo在2024年10月发布的一个探索项目论文，应该没有批量应用。

在中国这边跟特别紧的就是理想汽车了，走了类似于Wayve的路。

理想汽车在2024年2月份左右推出VLM论文，紧接着大概7月份宣发上车。

到了年底开始推出VLA相关论文，然后将会在2025年7月基于英伟达Thor以及双Orin平台上市 VLA新的智能辅助驾驶。

具体了解理想的VLA可以查看之前文章《理想智驾的VLA模型及其结构》.

小鹏在最近发布的G7已经明确表示采用 VLA，但具体实现形式不清楚，不过通过其发布的720亿（72B）云端算法架构图，显然这是一个云端VLA的架构，未来估计可以蒸馏成一个车端 VLA模型放到车端芯片上。

根据小鹏6月11 G7发布会上宣布的信息，小鹏智能驾驶采用三块图灵芯片共计2200Tops的算力，支持车端本地部署 VLA+VLM 架构，其中两块跑 VLA，另外与座舱交互共用一块跑 VLM。

其实可以瞄一眼上图理想的 VLA架构，两家应该趋同了，不同点是理想的 VLM是放在云端，小鹏凭借大算力芯片将 VLM放在了车端。

华为在年初发布的ADS 4.0采用的WEWA，总体上 WEWA是宣布华为到了端到端，WE 世界引擎也就是世界模型的一个应用，用于生成虚拟验证的场景。WA应该是一个端到端的范式，华为目前应该缺少跑 VLA的大算力芯片。

6**.**写在最后

VLA采用视觉信息，语言信息结合，基本上就是类人的仿生，人类也就是采用这类方式与物理世界交互。

所以 VLA就是解决 Physical AI而生，自动驾驶以及机器人都是 Physical AI最大的落地应用，自动驾驶以及机器人产业，他们的人工智能算法逻辑，储能以及运动电机等核心零部件类似，所以，做智能汽车的基本上也会做人形机器人了。

那么是不是 VLA需要自研呢？

其实至少里面的 LLM大语言模型肯定不需要自研的，毕竟一个LLM是一个人工智能的基础范畴，不需要也没必要重新发明轮子。

目前已知国外自动驾驶或者机器人基本用Open AI、Meta、Google的LLM; 国内汽车界理想和小鹏应该通用采用Deepseek或者阿里的Qwen。

最终大家都是利用人工智能模型组合好自己的 VLA，进行落地应用。

不过最后，提醒，先进的技术≠ 好的产品体验。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合