JEPA 详解：联合嵌入预测架构全面解析

2022年，图灵奖得主、Meta首席AI科学家Yann LeCun发表了一篇影响深远的立场论文，在这篇论文中，他系统性地阐述了一种全新的机器学习范式——联合嵌入预测架构（Joint Embedding Predictive Architecture，简称JEPA）。这篇论文系统性地批判了当前主流AI范式的局限，并提出了以**JEPA（Joint Embedding Predictive Archi

wukangjupingbb

667人浏览 · 2026-03-06 21:37:54

wukangjupingbb · 2026-03-06 21:37:54 发布

一、JEPA 的起源与思想根基

1.1 LeCun 的核心论文

2022年，杨立昆发表了影响深远的立场论文：

《A Path Towards Autonomous Machine Intelligence》（迈向自主机器智能之路）

这篇论文系统性地批判了当前主流AI范式的局限，并提出了以**JEPA（Joint Embedding Predictive Architecture）**为核心的新型学习框架。

“2022年，图灵奖得主、Meta首席AI科学家Yann LeCun发表了一篇影响深远的立场论文，在这篇论文中，他系统性地阐述了一种全新的机器学习范式——联合嵌入预测架构（Joint Embedding Predictive Architecture，简称JEPA）。”——CSDN博客

1.2 对现有范式的批判

LeCun 的核心观点是：现有的生成式 AI 和判别式 AI 都走错了路。

传统问题分类：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
生成式模型（VAE、GAN、扩散模型）
  → 在像素/词元空间预测 → 计算代价高昂 → 学到的是"画画"，而非"理解"

对比学习（CLIP、SimCLR）
  → 避免了坍塌问题 → 但表征可能被负样本方式影响

自回归 LLM（GPT系列）
  → 语言统计拟合 → 缺乏因果/物理世界理解
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

LeCun 认为，真正的智能需要在抽象表征空间中进行预测，而不是在原始数据空间中生成。

二、JEPA 的核心架构

2.1 基本框架图

                     ┌─────────────────────────────────┐
                     │        JEPA 基本架构             │
                     └─────────────────────────────────┘

        输入 x                              输入 y（x的另一视角/未来帧）
          │                                     │
          ▼                                     ▼
   ┌─────────────┐                      ┌─────────────┐
   │  编码器 E_x  │                      │  编码器 E_y  │
   │  (Context   │                      │  (Target    │
   │   Encoder)  │                      │   Encoder)  │
   └─────────────┘                      └─────────────┘
          │                                     │
          ▼                                     ▼
     s_x（上下文表征）                     s_y（目标表征）
          │                                     │
          │      ┌───────────────┐              │
          └─────►│  预测器 P      │◄─────────────┘
                 │  (Predictor)  │   （通过条件变量 z 引导）
                 └───────────────┘
                        │
                        ▼
                   ŝ_y（预测的目标表征）
                        │
                        ▼
              ┌─────────────────────┐
              │  损失函数: L(s_y, ŝ_y)│  ← 在表征空间计算，而非像素空间！
              └─────────────────────┘

2.2 三大核心组件

组件	名称	功能
E_x	上下文编码器（Context Encoder）	将可观测的上下文信息编码为表征
E_y	目标编码器（Target Encoder）	将目标信息编码为表征（通常通过EMA更新）
P	预测器（Predictor）	在表征空间中预测目标表征

2.3 关键创新：在嵌入空间中预测

这是 JEPA 与其他方法最本质的区别：

生成式模型：
  x（可见部分） → 解码器 → x̂（重建像素/词元）→ 与 y 对比（像素空间）

JEPA：
  x（可见部分） → 编码器 → s_x → 预测器 → ŝ_y（预测表征）→ 与 s_y 对比（表征空间）
                                                               ↑
                                                      无需解码回原始空间！

核心优势：

🎯 无需预测无关细节：纹理、噪声、光照变化等与理解无关的细节被自然过滤
💡 学习语义表征：迫使模型学习数据的本质结构
⚡ 计算高效：避免了在高维原始空间的生成代价

三、如何避免表征坍塌？

3.1 坍塌问题（Collapse Problem）

这是所有联合嵌入架构面临的最大挑战：

坍塌现象：
  如果模型将所有输入都映射到同一个点（或有限几个点），
  损失函数 L(s_y, ŝ_y) 可以轻松趋近于0，但表征毫无意义。

  x1 → E → [0, 0, 0, ...]  ┐
  x2 → E → [0, 0, 0, ...]  ├─ 都坍塌到同一点 → 损失=0，但表征无意义
  x3 → E → [0, 0, 0, ...]  ┘

3.2 JEPA 的解决方案：不对称架构 + 停止梯度

JEPA 借鉴了 BYOL、MoCo 等方法，采用动量编码器（Momentum Encoder / EMA）：

                    上下文编码器 E_x          目标编码器 E_y
                    （通过梯度更新）           （通过EMA更新，不接受梯度）
                          │                         │
                          │   EMA更新：             │
                          │   θ_y ← m·θ_y + (1-m)·θ_x
                          │                         │
                    参数: θ_x                  参数: θ_y

上下文编码器：通过反向传播正常更新
目标编码器：通过指数移动平均（EMA）缓慢更新，不接受直接梯度
效果：两个编码器之间的不对称性天然防止坍塌

四、I-JEPA：图像版本详解

4.1 架构设计

I-JEPA（Image JEPA）是第一个具体实现，专注于图像的自监督学习。

┌─────────────────────────────────────────────────────────────┐
│                    I-JEPA 工作流程                           │
└─────────────────────────────────────────────────────────────┘

原始图像
    │
    ▼
┌───────────────────────────────────────┐
│           图像分块（Patch化）           │
│  ┌──┬──┬──┬──┬──┐                    │
│  │P1│P2│P3│P4│P5│                    │
│  ├──┼──┼──┼──┼──┤   → 14×14 个 patch │
│  │P6│P7│P8│P9│..│                    │
│  └──┴──┴──┴──┴──┘                    │
└───────────────────────────────────────┘
    │
    ▼
    遮蔽策略（Masking Strategy）
    ┌────────────────────────────────────────────────────────┐
    │  目标块（Target Blocks）：4个大的连续矩形区域（被遮蔽）  │
    │  上下文块（Context Block）：剩余可见区域（通常>50%）     │
    └────────────────────────────────────────────────────────┘
    │
    ├──── 可见部分 ──────► 上下文编码器（ViT-Large）
    │                              │
    │                              ▼
    │                        上下文表征 s_x
    │                              │
    │                         预测器（窄ViT）+ 位置信息 z
    │                              │
    │                              ▼
    │                        预测表征 ŝ_y
    │
    └──── 被遮蔽部分 ──► 目标编码器（ViT-Large，EMA）
                                   │
                                   ▼
                             目标表征 s_y
                                   │
                                   ▼
                         L2损失：‖ŝ_y - s_y‖²

4.2 遮蔽策略的精妙设计

I-JEPA 遮蔽策略 vs MAE 遮蔽

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

Marp for VS Code Web扩展使用指南：在浏览器中编辑幻灯片的方法

Marp for VS Code是一款强大的扩展工具，能让你在VS Code中使用Marp Markdown语法创建精美的幻灯片。通过Web扩展，你可以直接在浏览器中体验这一便捷功能，无需复杂配置即可快速上手幻灯片制作。## 快速开始：安装与基础设置要开始使用Marp for VS Code Web扩展，首先需要确保你的VS Code已安装该扩展。你可以通过扩展市场搜索"Marp"找到并安

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合