一、JEPA 的起源与思想根基

1.1 LeCun 的核心论文

2022年,杨立昆发表了影响深远的立场论文:

《A Path Towards Autonomous Machine Intelligence》(迈向自主机器智能之路)

这篇论文系统性地批判了当前主流AI范式的局限,并提出了以**JEPA(Joint Embedding Predictive Architecture)**为核心的新型学习框架。

“2022年,图灵奖得主、Meta首席AI科学家Yann LeCun发表了一篇影响深远的立场论文,在这篇论文中,他系统性地阐述了一种全新的机器学习范式——联合嵌入预测架构(Joint Embedding Predictive Architecture,简称JEPA)。”——CSDN博客

1.2 对现有范式的批判

LeCun 的核心观点是:现有的生成式 AI 和判别式 AI 都走错了路

传统问题分类:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
生成式模型(VAE、GAN、扩散模型)
  → 在像素/词元空间预测 → 计算代价高昂 → 学到的是"画画",而非"理解"

对比学习(CLIP、SimCLR)
  → 避免了坍塌问题 → 但表征可能被负样本方式影响

自回归 LLM(GPT系列)
  → 语言统计拟合 → 缺乏因果/物理世界理解
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

LeCun 认为,真正的智能需要在抽象表征空间中进行预测,而不是在原始数据空间中生成。


二、JEPA 的核心架构

2.1 基本框架图

                     ┌─────────────────────────────────┐
                     │        JEPA 基本架构             │
                     └─────────────────────────────────┘

        输入 x                              输入 y(x的另一视角/未来帧)
          │                                     │
          ▼                                     ▼
   ┌─────────────┐                      ┌─────────────┐
   │  编码器 E_x  │                      │  编码器 E_y  │
   │  (Context   │                      │  (Target    │
   │   Encoder)  │                      │   Encoder)  │
   └─────────────┘                      └─────────────┘
          │                                     │
          ▼                                     ▼
     s_x(上下文表征)                     s_y(目标表征)
          │                                     │
          │      ┌───────────────┐              │
          └─────►│  预测器 P      │◄─────────────┘
                 │  (Predictor)  │   (通过条件变量 z 引导)
                 └───────────────┘
                        │
                        ▼
                   ŝ_y(预测的目标表征)
                        │
                        ▼
              ┌─────────────────────┐
              │  损失函数: L(s_y, ŝ_y)│  ← 在表征空间计算,而非像素空间!
              └─────────────────────┘

2.2 三大核心组件

组件 名称 功能
E_x 上下文编码器(Context Encoder) 将可观测的上下文信息编码为表征
E_y 目标编码器(Target Encoder) 将目标信息编码为表征(通常通过EMA更新)
P 预测器(Predictor) 在表征空间中预测目标表征

2.3 关键创新:在嵌入空间中预测

这是 JEPA 与其他方法最本质的区别:

生成式模型:
  x(可见部分) → 解码器 → x̂(重建像素/词元)→ 与 y 对比(像素空间)

JEPA:
  x(可见部分) → 编码器 → s_x → 预测器 → ŝ_y(预测表征)→ 与 s_y 对比(表征空间)
                                                               ↑
                                                      无需解码回原始空间!

核心优势

  • 🎯 无需预测无关细节:纹理、噪声、光照变化等与理解无关的细节被自然过滤
  • 💡 学习语义表征:迫使模型学习数据的本质结构
  • 计算高效:避免了在高维原始空间的生成代价

三、如何避免表征坍塌?

3.1 坍塌问题(Collapse Problem)

这是所有联合嵌入架构面临的最大挑战:

坍塌现象:
  如果模型将所有输入都映射到同一个点(或有限几个点),
  损失函数 L(s_y, ŝ_y) 可以轻松趋近于0,但表征毫无意义。

  x1 → E → [0, 0, 0, ...]  ┐
  x2 → E → [0, 0, 0, ...]  ├─ 都坍塌到同一点 → 损失=0,但表征无意义
  x3 → E → [0, 0, 0, ...]  ┘

3.2 JEPA 的解决方案:不对称架构 + 停止梯度

JEPA 借鉴了 BYOL、MoCo 等方法,采用动量编码器(Momentum Encoder / EMA)

                    上下文编码器 E_x          目标编码器 E_y
                    (通过梯度更新)           (通过EMA更新,不接受梯度)
                          │                         │
                          │   EMA更新:             │
                          │   θ_y ← m·θ_y + (1-m)·θ_x
                          │                         │
                    参数: θ_x                  参数: θ_y
  • 上下文编码器:通过反向传播正常更新
  • 目标编码器:通过指数移动平均(EMA)缓慢更新,不接受直接梯度
  • 效果:两个编码器之间的不对称性天然防止坍塌

四、I-JEPA:图像版本详解

4.1 架构设计

I-JEPA(Image JEPA)是第一个具体实现,专注于图像的自监督学习。

┌─────────────────────────────────────────────────────────────┐
│                    I-JEPA 工作流程                           │
└─────────────────────────────────────────────────────────────┘

原始图像
    │
    ▼
┌───────────────────────────────────────┐
│           图像分块(Patch化)           │
│  ┌──┬──┬──┬──┬──┐                    │
│  │P1│P2│P3│P4│P5│                    │
│  ├──┼──┼──┼──┼──┤   → 14×14 个 patch │
│  │P6│P7│P8│P9│..│                    │
│  └──┴──┴──┴──┴──┘                    │
└───────────────────────────────────────┘
    │
    ▼
    遮蔽策略(Masking Strategy)
    ┌────────────────────────────────────────────────────────┐
    │  目标块(Target Blocks):4个大的连续矩形区域(被遮蔽)  │
    │  上下文块(Context Block):剩余可见区域(通常>50%)     │
    └────────────────────────────────────────────────────────┘
    │
    ├──── 可见部分 ──────► 上下文编码器(ViT-Large)
    │                              │
    │                              ▼
    │                        上下文表征 s_x
    │                              │
    │                         预测器(窄ViT)+ 位置信息 z
    │                              │
    │                              ▼
    │                        预测表征 ŝ_y
    │
    └──── 被遮蔽部分 ──► 目标编码器(ViT-Large,EMA)
                                   │
                                   ▼
                             目标表征 s_y
                                   │
                                   ▼
                         L2损失:‖ŝ_y - s_y‖²

4.2 遮蔽策略的精妙设计

I-JEPA 遮蔽策略 vs MAE 遮蔽
Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐