一文带你弄懂具身智能发展主线：LLM、VLM、VLA，以及端到端模型，零基础小白收藏这一篇就够了！！

在人工智能的发展历程中，通用人工智能（AGI）一直是研究者们追求的终极目标，AGI旨在构建一个能够像人类一样在多种领域和任务中表现出智能的系统。2023年来，随着 AI 研究的不断进步，AGI的发展叙事逐渐清晰：从处理单一模态信息的单模态模型，到融合多种模态信息的多模态模型，再到以多模态模型为底模、能够自主规划和执行任务的Agent，发展到能与现实世界深度交互的具身智能、能探索前沿科学的 AI

模型优化师

3555人浏览 · 2025-08-14 13:58:07

模型优化师 · 2025-08-14 13:58:07 发布

前言

AGI 叙事路径

在人工智能的发展历程中，通用人工智能（AGI）一直是研究者们追求的终极目标，AGI旨在构建一个能够像人类一样在多种领域和任务中表现出智能的系统。

2023年来，随着 AI 研究的不断进步，AGI的发展叙事逐渐清晰：从处理单一模态信息的单模态模型，到融合多种模态信息的多模态模型，再到以多模态模型为底模、能够自主规划和执行任务的Agent，发展到能与现实世界深度交互的具身智能、能探索前沿科学的 AI for Science（AI4S），最终达到 AGI。

在这篇学习笔记中，我将尝试梳理从 LLM 到具身智能的智能演进路程，并厘清一些关键概念：

单模态模型：专注于处理文本、图像、语音等单一类型的信息的模型；
多模态模型：可以协同处理多种信息的模型，模型认知更接近人类；
Agent：在强大的单模态或者多模态模型底座之上，通过引入记忆、规划与工具调用模块，形成的能够自主完成复杂任务的智能体；
具身智能：Agent的终极形态之一。它拥有了物理实体（如机器人、自动驾驶汽车），突破了数字世界的束缚，真正走入物理世界；

对话姜大昕：AGI实现路径清晰了，世界模型不远了

1、LLM

首先从大语言模型（Large Language Model）说起。这类模型在数据上有一个鲜明的特点：其输入和输出均只有文本这一个模态的数据。

LLM之所以能基于单一的文本模态涌现出惊人的智能，一个核心原因在于，语言是传递信息效率最高的模态，能够以高度浓缩的形式承载复杂的逻辑与丰富的语义。所以相比其他单模态模型，LLM具有最高的智能程度。

它不仅能够模仿人类的语言风格，更重要的是，在海量文本数据的训练下，目前已经发展出了记忆、理解、推理和生成能力。这些能力的结合，使得LLM成为当前生成式 AI时代的基石，为后续更复杂的AI模型和应用提供了强大的技术底座。

LLM 的训练方式是基于 Transfomer 架构的预训练以及后训练完成。

目前，市场上已经出现许多知名的LLM，包括：Deepseek-V3&R1、GPT-4.5、GPT-o1&o3 等等。

2、VLM

尽管LLM在处理和理解文本方面表现出色，但我们生活的现实世界充满了远超文本的模态信息，其中最为关键和丰富的便是视觉信息。为了让AI能够理解我们生活的现实世界，一个必然的演进方向就是将LLM强大的语言能力与视觉信息相结合。

由此，多模态视觉-语言模型（Vision-Language Model）应运而生。它是一种能够同时理解图像（或视频）与文本，并在这两种模态之间建立深度关联的AI大模型。它的出现，突破了传统单一模态（纯文本或纯视觉）模型的局限，使得AI第一次拥有了跨越不同模态信息进行分析理解、推理与内容生成的强大能力。

在VLM的发展路径中，可以观察到一个清晰的趋势：从相对成熟的“多模态输入，单模态输出”，逐步走向更强大、更灵活的“多模态输入，多模态输出”。根据这个趋势，我将当今的VLM划分为三大主要类型：

分析型 VLM：这类模型的核心功能是跨模态的分析与理解。这类模型的输入可以是文本、图片、视频或者这些的混合，但输出主要是文本。它擅长看图说话或回答关于视觉内容的问题。常见的模型如 GPT-4v、Qwen2.5-VL、Gemini 2.5、Claude4 等等；
生成型 VLM：这类模型专注于跨模态的内容生成。它们的输入同样可以是多种模态的组合，但输出主要是图片或视频，能根据描述创造出视觉内容。这类模型有 Midjourney、Stable Diffusion，以及国内的可灵、即梦等等；
统一型 VLM：这是VLM的终极形态，它同时集合了分析和生成的能力，输入和输出都可以是文本、图片、视频的任意混合，实现了真正的“任意模态输入，任意模态输出”。这代表了该领域最前沿的方向，其典型代表正是 GPT**-4o**。

（PS：过去许多媒体一直认为现在的模型都是 LLM，但真正的 LLM 很少，很多自训练初期就是多模态混合，准确来说应该是 VLM。这也是为何各家的大模型在命名上如此混乱的原因）

VLM也遵循预训练—后训练的训练框架，但在预训练上与 LLM 方式不同。VLM的预训练方式通常采用双 Transfomer 架构。具体来说，就是用一个Transformer编码器来处理文本信息，同时用另一个Transformer编码器（通常是ViT架构）来处理视觉信息。最后，通过一个“融合模块”（例如跨模态注意力机制），将各自 Transfomer中提取出的语言特征和视觉特征进行深度的交互与对齐，从而让模型建立起语言与视觉之间的关联。

图4：VLM 训练过程

3、VLA

VLM的出现成功地将语言与视觉这两种关键模态联系起来，赋予了AI看见并理解世界的能力。然而，这种影响力在很大程度上仅局限在数字世界中，模型本身无法与我们身处的现实世界进行交互。为了打破这层壁垒，视觉-语言-行动模型（Vision-Language-Action Model）应运而生。

VLA可以看作是VLM的扩展。它在视觉和语言的模态上，增加了“行动”（Action）这个至关重要的模态。VLA以VLM强大的理解能力为基础，将其对环境的感知，在同一个模型内转化为可以让实体智能体（如汽车、机器人）执行的电气控制指令。正是这一步，让AI拥有了与现实世界进行物理交互的能力。

我们可以将这种架构想象成一个高度协同的生物体。在这个架构中，VLM扮演着感知和推理的角色，它负责理解复杂的视觉场景和人类下达的指令；而“行动”（Action）模块则扮演着小脑的角色，它接收来自大脑的决策，并负责规划和生成具体的、可执行的动作序列来完成任务。

以自动驾驶为例，在2024年，行业的主流方案倾向于分成“理解”和“规控”两个独立的系统：一个强大的VLM负责进行场景理解和逻辑推理，然后将它的判断数据传递给一个独立的规控模型，由后者来计算并执行具体的驾驶操作。

而到了2025年，行业则普遍追求一个更纯粹的端到端VLA模型。这种模型期望在内部直接完成从看懂世界到操控汽车的全过程，从而省去多个系统之间传递信息所带来的延迟和损耗。

这个演进过程可以用一个非常生动的比喻来解释：

过去的VLM+E2E方案，更像一个教练通过语言的方式指导一名新手驾驶员开车，指令的下达和执行之间存在壁垒，无法做到最直接的干预。

而VLA，则是由这位经验丰富的教练直接坐上驾驶位开车，感知、决策和行动在一瞬间无缝完成。

图5：VLA与 VLM在自动驾驶的应用

因此，一个统一的VLA模型，其能力理论上要高于由VLM和规控模型组成的双系统。

在理想汽车第二季AI Talk中提到，VLA是明确的行业方向，但目前具体的技术路线尚未完全收敛，整个领域仍处于积极的探索阶段。未来，VLA可以通过强化学习，在与物理环境的持续互动中进行自我迭代和提升，以应对现实世界中无穷无尽的边缘场景，这对于实现安全、可靠的具身智能至关重要。

图6：理想VLA训练自动驾驶具身智能体

4、端到端模型及训练

所谓的端到端模型，指的是从系统的最原始输入到最终输出的整个流程，完全由一个统一的AI模型完成，无需人为地将其拆解为多个独立的模块或设置中间步骤。这种架构摒弃了传统流水线式的复杂设计，追求极致的简洁和高效。

基于这个定义，再回头看之前我讨论过的模型，就可以进行清晰地辨析：

原则上，LLM、VLM、VLA在其最纯粹的形态下，都是典型的端到端模型。
在自动驾驶例子中提到的“双系统”方案（VLM+E2E），由于它是由“理解”和“规控”两个独立模型构成的，其整体架构并非端到端的。但构成这个双系统的两个独立模型，其自身都是一个端到端的模型（例如，VLM实现了从像素到文本的端到端，规控模型实现了从中间数据到控制指令的端到端）。

这个理念同样适用于Agent的设计。当一个Agent的架构是端到端的，即一个单一模型直接负责从环境感知到动作决策的全过程，我们便可以使用强化学习（RL）来对它进行训练。通过在环境中不断地试错和探索，模型能够自主优化其行为策略，例如OpenAI的Deep Research。

与之相对，以workflow方式编排的agent，则不是端到端模型。

图7：端到端模型

5、端到端模型及训练

在本篇笔记中，我尝试梳理一条从 LLM 到具身智能的AI进化之路，其最终核心是一个端到端的VLA模型。这个单一的模型，原生集成了过去需要多个模型才能实现的多种核心能力：

认知内核 (源于LLM的能力) ：它拥有强大的推理、常识和语言理解能力，使其能像人类一样思考和沟通。这是它的大脑。
多模态感知 (源于VLM的能力) ：它原生具备视觉-语言的联合理解能力，使其能看见并理解复杂的物理环境。这是它的眼睛。
物理交互 (VLA的核心) ：最关键的是，它能将感知和认知无缝转化为在物理世界中行动的指令，使其能操作物体、与环境交互。这是它的手和脚。

大脑、眼睛、手脚，当所有这些能力被无缝地集成于一个统一的VLA大模型中时，基于这个底座模型构建的能够与真实世界交互的具身智能体便诞生了。

而驱动这个具身智能体不断进化、提升其泛化能力的最终方法，正是端到端训练。尤其是通过与物理世界进行实时互动的强化学习（RL），让具身智能在一次次的试错和实践中变得更强大、更智能，最终能够像真正的生命体一样，去适应这个无穷无尽、充满变化的现实世界。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

但知道是一回事，做又是另一回事，初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性，在这基础上，找到高质量的学习资源，不浪费时间、不走弯路，又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式，可以更直观地展示过程，能有效提升学习兴趣和理解力，是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍（PDF）

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告（实时更新）

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合