JEPA 详解:联合嵌入预测架构全面解析
2022年,图灵奖得主、Meta首席AI科学家Yann LeCun发表了一篇影响深远的立场论文,在这篇论文中,他系统性地阐述了一种全新的机器学习范式——联合嵌入预测架构(Joint Embedding Predictive Architecture,简称JEPA)。这篇论文系统性地批判了当前主流AI范式的局限,并提出了以**JEPA(Joint Embedding Predictive Archi
一、JEPA 的起源与思想根基
1.1 LeCun 的核心论文
2022年,杨立昆发表了影响深远的立场论文:
《A Path Towards Autonomous Machine Intelligence》(迈向自主机器智能之路)
这篇论文系统性地批判了当前主流AI范式的局限,并提出了以**JEPA(Joint Embedding Predictive Architecture)**为核心的新型学习框架。
“2022年,图灵奖得主、Meta首席AI科学家Yann LeCun发表了一篇影响深远的立场论文,在这篇论文中,他系统性地阐述了一种全新的机器学习范式——联合嵌入预测架构(Joint Embedding Predictive Architecture,简称JEPA)。”——CSDN博客
1.2 对现有范式的批判
LeCun 的核心观点是:现有的生成式 AI 和判别式 AI 都走错了路。
传统问题分类:
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
生成式模型(VAE、GAN、扩散模型)
→ 在像素/词元空间预测 → 计算代价高昂 → 学到的是"画画",而非"理解"
对比学习(CLIP、SimCLR)
→ 避免了坍塌问题 → 但表征可能被负样本方式影响
自回归 LLM(GPT系列)
→ 语言统计拟合 → 缺乏因果/物理世界理解
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
LeCun 认为,真正的智能需要在抽象表征空间中进行预测,而不是在原始数据空间中生成。
二、JEPA 的核心架构
2.1 基本框架图
┌─────────────────────────────────┐
│ JEPA 基本架构 │
└─────────────────────────────────┘
输入 x 输入 y(x的另一视角/未来帧)
│ │
▼ ▼
┌─────────────┐ ┌─────────────┐
│ 编码器 E_x │ │ 编码器 E_y │
│ (Context │ │ (Target │
│ Encoder) │ │ Encoder) │
└─────────────┘ └─────────────┘
│ │
▼ ▼
s_x(上下文表征) s_y(目标表征)
│ │
│ ┌───────────────┐ │
└─────►│ 预测器 P │◄─────────────┘
│ (Predictor) │ (通过条件变量 z 引导)
└───────────────┘
│
▼
ŝ_y(预测的目标表征)
│
▼
┌─────────────────────┐
│ 损失函数: L(s_y, ŝ_y)│ ← 在表征空间计算,而非像素空间!
└─────────────────────┘
2.2 三大核心组件
| 组件 | 名称 | 功能 |
|---|---|---|
| E_x | 上下文编码器(Context Encoder) | 将可观测的上下文信息编码为表征 |
| E_y | 目标编码器(Target Encoder) | 将目标信息编码为表征(通常通过EMA更新) |
| P | 预测器(Predictor) | 在表征空间中预测目标表征 |
2.3 关键创新:在嵌入空间中预测
这是 JEPA 与其他方法最本质的区别:
生成式模型:
x(可见部分) → 解码器 → x̂(重建像素/词元)→ 与 y 对比(像素空间)
JEPA:
x(可见部分) → 编码器 → s_x → 预测器 → ŝ_y(预测表征)→ 与 s_y 对比(表征空间)
↑
无需解码回原始空间!
核心优势:
- 🎯 无需预测无关细节:纹理、噪声、光照变化等与理解无关的细节被自然过滤
- 💡 学习语义表征:迫使模型学习数据的本质结构
- ⚡ 计算高效:避免了在高维原始空间的生成代价
三、如何避免表征坍塌?
3.1 坍塌问题(Collapse Problem)
这是所有联合嵌入架构面临的最大挑战:
坍塌现象:
如果模型将所有输入都映射到同一个点(或有限几个点),
损失函数 L(s_y, ŝ_y) 可以轻松趋近于0,但表征毫无意义。
x1 → E → [0, 0, 0, ...] ┐
x2 → E → [0, 0, 0, ...] ├─ 都坍塌到同一点 → 损失=0,但表征无意义
x3 → E → [0, 0, 0, ...] ┘
3.2 JEPA 的解决方案:不对称架构 + 停止梯度
JEPA 借鉴了 BYOL、MoCo 等方法,采用动量编码器(Momentum Encoder / EMA):
上下文编码器 E_x 目标编码器 E_y
(通过梯度更新) (通过EMA更新,不接受梯度)
│ │
│ EMA更新: │
│ θ_y ← m·θ_y + (1-m)·θ_x
│ │
参数: θ_x 参数: θ_y
- 上下文编码器:通过反向传播正常更新
- 目标编码器:通过指数移动平均(EMA)缓慢更新,不接受直接梯度
- 效果:两个编码器之间的不对称性天然防止坍塌
四、I-JEPA:图像版本详解
4.1 架构设计
I-JEPA(Image JEPA)是第一个具体实现,专注于图像的自监督学习。
┌─────────────────────────────────────────────────────────────┐
│ I-JEPA 工作流程 │
└─────────────────────────────────────────────────────────────┘
原始图像
│
▼
┌───────────────────────────────────────┐
│ 图像分块(Patch化) │
│ ┌──┬──┬──┬──┬──┐ │
│ │P1│P2│P3│P4│P5│ │
│ ├──┼──┼──┼──┼──┤ → 14×14 个 patch │
│ │P6│P7│P8│P9│..│ │
│ └──┴──┴──┴──┴──┘ │
└───────────────────────────────────────┘
│
▼
遮蔽策略(Masking Strategy)
┌────────────────────────────────────────────────────────┐
│ 目标块(Target Blocks):4个大的连续矩形区域(被遮蔽) │
│ 上下文块(Context Block):剩余可见区域(通常>50%) │
└────────────────────────────────────────────────────────┘
│
├──── 可见部分 ──────► 上下文编码器(ViT-Large)
│ │
│ ▼
│ 上下文表征 s_x
│ │
│ 预测器(窄ViT)+ 位置信息 z
│ │
│ ▼
│ 预测表征 ŝ_y
│
└──── 被遮蔽部分 ──► 目标编码器(ViT-Large,EMA)
│
▼
目标表征 s_y
│
▼
L2损失:‖ŝ_y - s_y‖²
4.2 遮蔽策略的精妙设计
I-JEPA 遮蔽策略 vs MAE 遮蔽
更多推荐
所有评论(0)