实时开放词汇目标检测研究综述
开放词汇目标检测研究综述摘要 开放词汇目标检测(OVOD)突破了传统目标检测的封闭类别限制,能够通过自然语言描述识别任意新类别。本文系统梳理了OVOD的研究进展:首先分析传统检测方法的局限性(封闭类别、泛化能力差、扩展成本高),明确OVOD的核心定义是"基于文本引导识别新物体";其次对比传统与开放检测在类别设定、文本输入、零样本能力等方面的差异;然后介绍OVOD发展历程,从20
实时开放词汇目标检测研究综述
目录
一、研究背景与问题定义
1.1 传统目标检测的局限性
传统目标检测方法(如 Faster R-CNN、YOLO 系列等)虽然在封闭数据集上取得了显著成功,但存在根本性限制:
传统目标检测的问题:
┌─────────────────────────────────────────────────────────────┐
│ 1. 封闭类别设定 │
│ - 模型只能识别训练时定义的固定类别 │
│ - 无法识别新的、未见过的物体类别 │
│ - 需要大量标注数据训练新类别 │
│ │
│ 2. 泛化能力差 │
│ - 对分布外(OOD)数据泛化能力弱 │
│ - 难以适应新场景新环境 │
│ │
│ 3. 扩展成本高 │
│ - 添加新类别需要重新训练模型 │
│ - 数据标注和训练成本高昂 │
│ - 无法快速部署到新应用场景 │
└─────────────────────────────────────────────────────────────┘
1.2 开放词汇目标检测的定义
开放词汇目标检测(Open-Vocabulary Object Detection, OVOD) 旨在解决传统方法的局限性,其核心目标是:
让检测器能够识别训练集之外的任意物体类别,通过文本描述(自然语言)引导检测器识别新物体。
形式化定义:
给定:
- 输入图像 I
- 文本查询(类别名称或描述)T = {t1, t2, ..., tn}
- 预训练的视觉-语言模型(VLM)
输出:
- 边界框预测 B = {b1, b2, ..., bm}
- 每个边界框对应的类别标签(来自文本查询T)
1.3 研究发展历程
┌────────────────────────────────────────────────────────────────────┐
│ 开放词汇目标检测发展时间线 │
├────────────────────────────────────────────────────────────────────┤
│ │
│ 2017-2020 萌芽期 │
│ ├── 2017 FAT-COVID (首次使用自然语言进行目标检索) │
│ ├── 2019 VGPN (视觉短语定位网络) │
│ └── 2020 MDETR (多模态解码检测) │
│ │
│ 2021-2022 突破期 │
│ ├── 2021 OVR-CNN (开放词汇R-CNN) │
│ ├── 2022 GLIP (语言-图像预训练) ⭐ │
│ └── 2022 ViLD (视觉-语言蒸馏检测) │
│ │
│ 2023-2024 实时期 ⭐ │
│ ├── 2023 Grounding DINO (DINO + 基础预训练) │
│ ├── 2024 YOLO-World (CNN + 实时开放词汇检测) ⭐ │
│ └── 2024 YOLOE (清华大学 - 超越YOLO-World) │
│ │
│ 2025-至今 多模态融合期 │
│ └── 2025 多模态大模型 + 实时检测 │
│ │
└────────────────────────────────────────────────────────────────────┘
二、开放词汇目标检测与传统目标检测的区别
2.1 核心区别对比
| 维度 | 传统目标检测 | 开放词汇目标检测 |
|---|---|---|
| 类别设定 | 固定、封闭 | 开放、灵活 |
| 文本输入 | 不支持 | 支持自然语言 |
| 零样本能力 | 不支持 | 支持零样本检测 |
| 类别扩展 | 需重新训练 | 无需训练即可扩展 |
| 视觉-语言对齐 | 无 | 有(CLIP等) |
| 推理速度 | 快(YOLO等) | 较慢(Transformer) |
| 训练数据 | 检测标注 | 检测+图像-文本对 |
2.2 技术架构差异
传统目标检测架构
┌─────────────────────────────────────────────────────────┐
│ 传统目标检测架构 │
├─────────────────────────────────────────────────────────┤
│ │
│ 输入图像 │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Backbone (CNN/Transformer) │ │
│ │ 图像特征提取 │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Neck (FPN/PAN) │ │
│ │ 多尺度特征融合 │ │
│ └───────────────────────────────────────────────────�─┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Detection Head │ │
│ │ 类别预测(固定类别数) │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 输出: 边界框 + 预定义类别 │
│ │
└─────────────────────────────────────────────────────────┘
开放词汇目标检测架构
┌─────────────────────────────────────────────────────────┐
│ 开放词汇目标检测架构 │
├─────────────────────────────────────────────────────────┤
│ │
│ 输入: 图像 + 文本查询 │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Image Encoder (CNN/Transformer) │ │
│ │ 图像特征提取 │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Text Encoder (Transformer) │ │
│ │ 文本嵌入生成(CLIP/BERT) │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Vision-Language Alignment │ │
│ │ 视觉-语言特征融合 │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌───────────────────────────────────────────────────┐ │
│ │ Detection Head │ │
│ │ 开放词汇类别预测 │ │
│ └───────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 输出: 边界框 + 文本查询中的类别 │
│ │
└─────────────────────────────────────────────────────────┘
2.3 检测流程对比
传统检测流程:
图像输入 → 特征提取 → 类别匹配(与固定类别库比对)→ 输出
开放词汇检测流程:
图像 + 文本查询 → 图像编码 + 文本编码 → 跨模态融合 → 开放词汇检测 → 输出
三、开放词汇目标检测的优势
3.1 核心优势
✅ 1. 零样本检测能力
定义:模型能够识别从未在训练集中出现的类别。
示例:
# 传统模型:只能检测训练时的80个COCO类别
# YOLO-World:可以检测任意文本描述的类别
model.set_classes(["狮子", "长颈鹿", "斑马", "犀牛"]) # 非洲动物
model.set_classes(["挖掘机", "压路机", "推土机"]) # 工程车辆
✅ 2. 灵活的类别扩展
┌─────────────────────────────────────────────────────────────┐
│ 类别扩展对比 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 传统方法: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 添加新类别 → 收集数据 → 标注 → 重新训练 → 部署 │ │
│ │ 耗时: 数天到数周 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 开放词汇方法: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 输入新类别文本 → 直接检测 │ │
│ │ 耗时: 秒级 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
✅ 3. 多模态理解能力
- 理解自然语言描述
- 支持复杂查询(“穿红衣服的人”)
- 结合上下文信息
# 简单类别
model.set_classes(["person", "car"])
# 复杂描述
model.set_classes(["person wearing red jacket", "white car"])
✅ 4. 更好的泛化性
| 场景 | 传统方法 | 开放词汇方法 |
|---|---|---|
| 新物体类别 | ❌ 无法检测 | ✅ 支持 |
| 跨数据集迁移 | ⚠️ 需要微调 | ✅ 零样本 |
| 长尾类别 | ⚠️ 数据稀缺 | ✅ 文本补偿 |
| 领域适应 | ⚠️ 需重新训练 | ✅ Prompt调整 |
3.2 与传统方法的性能对比
速度对比
| 模型 | 架构 | 参数量 | FPS | 实时性 |
|---|---|---|---|---|
| Faster R-CNN | RCNN | 41M | 5 | ❌ |
| DETR | Transformer | 41M | 20 | ❌ |
| GLIP-T | Transformer | 1.3B | 10 | ❌ |
| YOLO-World | CNN | 0.1B | 52 | ✅ |
| YOLOE | CNN | ~0.1B | ~70 | ✅ |
精度对比(LVIS 数据集)
| 模型 | AP | APrare | 说明 |
|---|---|---|---|
| OV-RCNN | 22.1 | 16.5 | 基线 |
| GLIP-T | 26.1 | 21.3 | 需大量计算 |
| Grounding DINO | 28.2 | 24.2 | Transformer |
| YOLO-World | 28.4 | 24.5 | 实时+高精度 |
| YOLOE | 31.9 | 28.3 | 最新SOTA |
四、核心技术方法
4.1 视觉-语言预训练
CLIP(Contrastive Language-Image Pre-training)
核心思想:通过对比学习对齐图像和文本特征。
┌─────────────────────────────────────────────────────────────┐
│ CLIP 训练流程 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────┐ ┌─────────┐ │
│ │ 图像1 │ │ 文本1 │ │
│ │ "猫" │ │ "cat" │ │
│ └────┬────┘ └────┬────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ │
│ │ Image │ │ Text │ │
│ │ Encoder │ │ Encoder │ │
│ └────┬────┘ └────┬────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ │
│ │ 图像 │◄──────►│ 文本 │ │
│ │ 嵌入 │ 对比 │ 嵌入 │ │
│ └─────────┘ └─────────┘ │
│ │
│ 目标: 配对的图像-文本嵌入距离近,不配对的距离远 │
│ │
└─────────────────────────────────────────────────────────────┘
损失函数
# CLIP 对比损失
def clip_loss(image_embeds, text_embeds, temperature=0.07):
"""
image_embeds: 图像嵌入 [B, D]
text_embeds: 文本嵌入 [B, D]
temperature: 温度参数
"""
# 归一化
image_embeds = F.normalize(image_embeds, dim=-1)
text_embeds = F.normalize(text_embeds, dim=-1)
# 计算相似度矩阵
logits = (image_embeds @ text_embeds.T) / temperature
# 标签:对角线为正样本
labels = torch.arange(len(logits)).to(logits.device)
# 对称损失
loss_i2t = F.cross_entropy(logits, labels)
loss_t2i = F.cross_entropy(logits.T, labels)
return (loss_i2t + loss_t2i) / 2
4.2 区域-文本对齐
区域-文本对比学习
核心思想:将图像区域特征与文本嵌入进行对齐。
┌─────────────────────────────────────────────────────────────┐
│ 区域-文本对比学习 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 图像区域特征 │
│ ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │
│ │ R1 │ │ R2 │ │ R3 │ │ R4 │ │ R5 │ (人物/汽车/建筑...) │
│ └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘ │
│ │ │ │ │ │ │
│ ▼ ▼ ▼ ▼ ▼ │
│ ┌──────────────────────────────────────────┐ │
│ │ 区域特征投影层 │ │
│ │ Region Features → Region Embeds │ │
│ └──────────────────────────────────────────┘ │
│ │ │
│ │ 对比学习 │
│ ▼ │
│ ┌──────────────────────────────────────────┐ │
│ │ 文本嵌入 (类别名称) │ │
│ │ ["person", "car", "building"] │ │
│ └──────────────────────────────────────────┘ │
│ │
│ 目标: 匹配的区域-文本对距离近,不匹配的远 │
│ │
└─────────────────────────────────────────────────────────────┘
4.3 提示编码器(Prompt Encoder)
文本提示处理
class PromptEncoder:
"""文本提示编码器"""
def __init__(self, clip_model):
self.clip = clip_model
self.text_encoder = clip.text_encoder
def encode(self, prompts):
"""
Args:
prompts: 文本提示列表 ["person", "car", ...]
Returns:
text_embeddings: 文本嵌入 [N, D]
"""
# Tokenize
tokens = self.clip.tokenize(prompts)
# 编码
with torch.no_grad():
text_embeddings = self.text_encoder(tokens)
return text_embeddings
4.4 离线词汇表策略
YOLO-World 的"提示-然后检测"
class OfflineVocabulary:
"""离线词汇表"""
def __init__(self, categories):
"""
Args:
categories: 类别名称列表
"""
self.categories = categories
self.text_embeddings = None
def encode_offline(self, clip_model):
"""离线编码文本提示"""
# 预计算所有类别的文本嵌入
self.text_embeddings = clip_model.encode_text(self.categories)
def get_embeddings(self):
"""获取预计算的嵌入"""
return self.text_embeddings
五、主流模型架构
5.1 GLIP(Grounded Language-Image Pre-training)
论文信息
- 作者: Liunian Harold Li, Pengchuan Zhang, et al. (Microsoft)
- 会议: ICML 2022
- 链接: https://arxiv.org/abs/2112.03857
核心架构
┌─────────────────────────────────────────────────────────────┐
│ GLIP 架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 输入: 图像 + 短语 ("person holding a umbrella") │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ DyHead (Dynamic Head) │ │
│ │ 图像特征 + 文本特征 融合 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 短语定位 + 目标检测 │ │
│ │ phrase grounding + object detection │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 输出: 边界框 + 短语-框对应关系 │
│ │
└─────────────────────────────────────────────────────────────┘
创新点
- 统一检测和定位任务:将短语定位任务整合到目标检测框架
- 语义增强的深度网络:DyHead 融合多尺度视觉特征和语言特征
- 大规模数据训练:利用 GoldG(检测+定位)数据训练
5.2 Grounding DINO
论文信息
- 作者: Shilong Liu, Feng Li, et al. (IDEA, Tsinghua)
- 会议: CVPR 2024
- 链接: https://arxiv.org/abs/2303.05499
核心架构
┌─────────────────────────────────────────────────────────────┐
│ Grounding DINO 架构 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 图像分支: 文本分支: │
│ ┌────────────────┐ ┌────────────────┐ │
│ │ Swin-T/O │ │ BERT/CLIP │ │
│ │ 图像骨干网络 │ │ 文本编码器 │ │
│ └───────┬────────┘ └───────┬────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌────────────────┐ ┌────────────────┐ │
│ │ FPN 多尺度 │ │ 文本嵌入 │ │
│ │ 特征融合 │ │ │ │
│ └───────┬────────┘ └───────┬────────┘ │
│ │ │ │
│ │ ┌─────────────────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ Cross-Attention 融合 │ │
│ │ 图像-文本跨模态注意力机制 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 检测头 (检测 + 定位) │ │
│ └─────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ 输出: 边界框 + 置信度 + 类别 (文本) │
│ │
└─────────────────────────────────────────────────────────────┘
关键创新
- 开集检测能力:通过文本提示检测任意类别
- 跨模态融合:DINO 检测器 + CLIP 文本编码器
- CAPT 策略:语言指导的 contrastive pre-training
5.3 YOLO-World
论文信息
- 作者: Cheng Qin, Zhiheng Li, et al. (Tencent AILab-CVC)
- 会议: CVPR 2024
- 链接: https://arxiv.org/abs/2401.17270v2
- GitHub: https://github.com/AILab-CVC/YOLO-World
核心架构
已在之前的文档中详细描述,此处总结关键特点:
"提示-然后检测"策略:
# 离线阶段(预计算)
vocabulary = ["person", "car", "bus", ...]
text_embeddings = clip_encode(vocabulary) # 只执行一次
# 在线阶段(推理)
image_features = backbone(image)
detection = world_head(image_features, text_embeddings) # 快速检测
性能:
- 参数量:0.1B(GLIP-T 的 1/13)
- 推理速度:52 FPS(NVIDIA V100)
- LVIS AP:28.4
5.4 YOLOE(清华团队)
论文信息
- 作者: THU-MIG (Tsinghua University)
- 时间: 2025
- 链接: https://github.com/THU-MIG/yoloe
核心改进
相比 YOLO-World 的主要提升:
| 指标 | YOLO-Worldv2 | YOLOE | 提升 |
|---|---|---|---|
| LVIS AP | 28.4 | 31.9 | +3.5 |
| 训练资源 | 3x | 1x | 3x 减少 |
| 推理速度 | 52 FPS | 73 FPS | 1.4x 提升 |
技术创新
- 重参化设计:推理时将开放词汇模块合并到标准检测头
- 三种提示模式:
- 文本提示(Text Prompt)
- 视觉提示(Visual Prompt)
- 内部词汇(1200+ 类别)
# YOLOE 支持三种提示模式
model = YOLO("yoloe-11s-seg.pt")
# 文本提示
model.set_classes(["person", "traffic light"])
# 视觉提示(给定参考图像)
model.set_image_prompts(reference_images)
# 内部词汇(无需提示)
results = model.predict("image.jpg") # 自动使用1200+类别
六、最新研究进展
6.1 2024-2025 年重要进展
1. YOLO-Worldv2
发布时间: 2024年中
主要改进:
- 更强的文本编码器
- 改进的区域-文本对比
- 更大的预训练数据集
性能提升:
LVIS AP: 28.4 → 30.2 (+1.8)
2. YOLOE
发布时间: 2025年初
核心突破:
- CNN路线的开放词汇检测新SOTA
- 训练效率提升 3 倍
- 推理速度提升 1.4 倍
3. YOLO-IOD
论文: YOLO-IOD: Towards Real-Time Incremental Object Detection
核心思想:
- 增量目标检测
- 无需重新训练即可添加新类别
- 结合开放词汇和增量学习
4. 多模态大模型融合
趋势:
GPT-4V + 目标检测 → 智能检测助手
LLaVA + YOLO → 视觉理解检测
6.2 技术发展路线
┌─────────────────────────────────────────────────────────────────────┐
│ 技术演进路线 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ Stage 1: 纯Transformer路线 │
│ ├── GLIP → Grounding DINO → GLIPv2 │
│ ├── 优点: 精度高,能力全面 │
│ └── 缺点: 计算量大,推理慢 │
│ │
│ Stage 2: CNN+Transformer混合路线 │
│ ├── YOLO-World → YOLOE │
│ ├── 优点: 实时性好,精度损失小 │
│ └── 缺点: 需要更好的融合机制 │
│ │
│ Stage 3: 端到端多模态融合 │
│ ├── 多模态大模型 + 检测头 │
│ ├── 优点: 统一框架,能力最强 │
│ └── 缺点: 计算资源要求高 │
│ │
└─────────────────────────────────────────────────────────────────────┘
七、国内外研究现状
7.1 国际研究
代表团队与成果
| 机构 | 代表工作 | 特点 |
|---|---|---|
| Microsoft | GLIP系列 | 开创性的语言-图像预训练 |
| PaLI, PaLM-E | 大规模多模态模型 | |
| Meta AI | SAM, DINOv2 | 分割和特征学习 |
| IDEA (清华深圳) | Grounding DINO | 开集检测新范式 |
| Ultralytics | YOLOv8-World | 实时开放词汇检测 |
重要论文列表
-
GLIP (ICML 2022)
- Li et al., Microsoft
- https://arxiv.org/abs/2112.03857
-
Grounding DINO (CVPR 2024)
- Liu et al., IDEA & Tsinghua
- https://arxiv.org/abs/2303.05499
-
YOLO-World (CVPR 2024)
- Qin et al., Tencent AILab
- https://arxiv.org/abs/2401.17270v2
-
OV-RCNN (ICCV 2021)
- Zareian et al.
- 开放词汇R-CNN基线
7.2 国内研究
代表团队与成果
| 机构 | 代表工作 | 特点 |
|---|---|---|
| 清华大学 | YOLOE, Grounding DINO | 实时高效,CNN路线 |
| 腾讯AILab | YOLO-World | 工业级应用 |
| 华为诺亚 | CLIP-DINO | 对比学习优化 |
| 商汤科技 | UniDetector | 统一检测框架 |
| 旷视科技 | YOLOX, YOLOv6 | 实时检测优化 |
YOLOE(清华大学)详解
论文: YOLOE: Real-Time Open-Vocabulary Object Detection
核心技术:
- 重参化开放词汇头
# 训练时:使用文本嵌入
text_embeds = text_encoder(class_names)
detection = open_vocab_head(image_feats, text_embeds)
# 推理时:重参化为标准检测头
detection = standard_head(image_feats) # 无需文本嵌入
- 三种提示模式
# 文本提示
model.set_classes(["person", "car"])
# 视觉提示
model.set_image_prompts(reference_images)
# 内部词汇(1200+类别)
results = model.predict("image.jpg")
- 性能数据
| 模型 | LVIS AP | 速度 (FPS) | 训练资源 |
|---|---|---|---|
| YOLO-Worldv2 | 30.2 | 52 | 3x |
| YOLOE-11s | 31.9 | 73 | 1x |
7.3 工业应用现状
商业产品
| 产品 | 公司 | 应用场景 |
|---|---|---|
| Ultralytics HUB | Ultralytics | 云端训练+部署 |
| 腾讯云 | 腾讯 | 智能监控 |
| 华为好望 | 华为 | 安防检测 |
| 商汤SenseVision | 商汤 | 自动驾驶 |
开源生态
┌─────────────────────────────────────────────────────────────┐
│ 开源生态概况 │
├─────────────────────────────────────────────────────────────┤
│ │
│ Ultralytics YOLO-World │
│ ├── GitHub: 12k+ ⭐ │
│ ├── 模型: YOLOv8-World, YOLO11-World │
│ └── 特点: 工业级稳定,易用性好 │
│ │
│ Tencent YOLO-World │
│ ├── GitHub: 8k+ ⭐ │
│ ├── 模型: YOLOv8-Worldv2 │
│ └── 特点: 官方实现,更新快 │
│ │
│ THU-MIG YOLOE │
│ ├── GitHub: 3k+ ⭐ (new) │
│ ├── 模型: YOLOE系列 │
│ └── 特点: 最新SOTA,精度最高 │
│ │
└─────────────────────────────────────────────────────────────┘
八、未来发展方向
8.1 当前研究热点
1. 多模态大模型融合
目标:将 GPT-4V、LLaVA 等大模型的能力融合到检测任务
研究方向:
├── 视觉-语言模型 + 检测头
├── 思维链推理 + 检测
├── 视觉问答 + 检测
└── 少样本检测
2. 端到端开放词汇检测
目标:从图像输入直接到开放词汇输出,无需两阶段处理
# 当前:两阶段
image → CLIP编码 → 特征融合 → 检测
# 未来:端到端
image → 多模态大模型 → 开放词汇检测
3. 增量式开放词汇检测
目标:无需重新训练,持续添加新类别
增量检测能力:
├── 添加新类别 → 不影响旧类别
├── 实时更新词汇表
├── 保持检测速度
└── 减少计算开销
8.2 技术挑战
| 挑战 | 描述 | 当前解决方案 |
|---|---|---|
| 精度-速度权衡 | 开放词汇检测通常比传统方法慢 | CNN+Transformer混合架构 |
| 长尾类别 | 稀有类别检测效果差 | 文本嵌入补偿 |
| 复杂描述理解 | 难以理解复杂自然语言 | Prompt工程 |
| 领域适应 | 从实验室到实际场景 | 域适应技术 |
8.3 应用前景
┌─────────────────────────────────────────────────────────────┐
│ 应用领域 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 🏭 工业检测 │
│ ├── 缺陷检测(任意缺陷类型) │
│ ├── 质量控制(灵活标准定义) │
│ └── 物流分拣(新品类快速部署) │
│ │
│ 🚗 自动驾驶 │
│ ├── 罕见障碍物检测 │
│ ├── 交通标志识别 │
│ └── 场景理解 │
│ │
│ 🏥 医疗影像 │
│ ├── 病变区域检测 │
│ ├── 新疾病类型识别 │
│ └── 医学报告生成 │
│ │
│ 🛒 零售分析 │
│ ├── 商品识别 │
│ ├── 顾客行为分析 │
│ └── 新商品自动注册 │
│ │
│ 🌐 视频监控 │
│ ├── 异常行为检测 │
│ ├── 多场景自适应 │
│ └── 隐私保护 │
│ │
└─────────────────────────────────────────────────────────────┘
九、参考文献
经典论文
1. YOLO-World: Real-Time Open-Vocabulary Object Detection
@inproceedings{yolo-world-cvpr2024,
title={YOLO-World: Real-Time Open-Vocabulary Object Detection},
author={Qin, Cheng and Li, Zhiheng and Ge, Yixiao and Wang, Zeyu and others},
booktitle={CVPR},
year={2024}
}
- 链接: https://arxiv.org/abs/2401.17270v2
- GitHub: https://github.com/AILab-CVC/YOLO-World
2. GLIP: Grounded Language-Image Pre-training
@inproceedings{glip-icml2022,
title={GLIP: Grounded Language-Image Pre-training},
author={Li, Liunian Harold and Zhang, Pengchuan and Zhang, Haotian and others},
booktitle={ICML},
year={2022}
}
- 链接: https://arxiv.org/abs/2112.03857
- GitHub: https://github.com/microsoft/GLIP
3. Grounding DINO: Marrying DINO with Grounded Pre-training
@inproceedings{grounding-dino-cvpr2024,
title={Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection},
author={Liu, Shilong and Li, Feng and Zhang, Hao and others},
booktitle={CVPR},
year={2024}
}
- 链接: https://arxiv.org/abs/2303.05499
4. MDETR: Modulated Detection for End-to-End Multi-Modal Understanding
@inproceedings{mdetr-iccv2021,
title={MDETR: Modulated Detection for End-to-End Multi-Modal Understanding},
author={Kamath, Aishwarya and Singh, Mannat and LeCun, Yann and others},
booktitle={ICCV},
year={2021}
}
- 链接: https://arxiv.org/abs/2104.12763
5. CLIP: Learning Transferable Visual Models From Natural Language
@inproceedings{clip-pmlr2021,
title={CLIP: Learning Transferable Visual Models From Natural Language},
author={Radford, Alec and Kim, Jong Wook and Hallacy, Chris and others},
booktitle={ICML},
year={2021}
}
- 链接: https://arxiv.org/abs/2103.00020
最新论文
6. YOLOE: Real-Time Open-Vocabulary Object Detection
@article{yoloe-2025,
title={YOLOE: Real-Time Open-Vocabulary Object Detection},
author={THU-MIG},
year={2025},
institution={Tsinghua University}
}
- GitHub: https://github.com/THU-MIG/yoloe
7. YOLO-IOD: Towards Real-Time Incremental Object Detection
@article{yolo-iod-2024,
title={YOLO-IOD: Towards Real-Time Incremental Object Detection},
author={},
year={2024}
}
基础检测论文
8. YOLOv8
@article{yolov8-2023,
title={YOLOv8: A State-of-the-Art Object Detection Model},
author={Ultralytics},
year={2023},
institution={Ultralytics}
}
9. DINO: DETR with Improved DeNoising Anchor Boxes
@inproceedings{dino-iclr2022,
title={DINO: DETR with Improved DeNoising Anchor Boxes},
author={Zhang, Haiyang and Li, Feng and others},
booktitle={ICLR},
year={2022}
}
10. SAM: Segment Anything Model
@article{sam-2023,
title={Segment Anything Model},
author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and others},
booktitle={ICCV},
year={2023}
}
- 链接: https://arxiv.org/abs/2304.02643
附录
A. 术语表
| 术语 | 英文 | 定义 |
|---|---|---|
| 开放词汇检测 | Open-Vocabulary Detection | 能检测任意文本描述类别的目标检测 |
| 零样本学习 | Zero-Shot Learning | 识别从未见过的类别 |
| 视觉-语言对齐 | Vision-Language Alignment | 图像和文本特征的对齐 |
| 提示编码 | Prompt Encoding | 将文本提示转换为模型可处理的格式 |
| 区域-文本对比 | Region-Text Contrastive | 图像区域与文本嵌入的对比学习 |
B. 数据集
| 数据集 | 类别数 | 特点 |
|---|---|---|
| COCO | 80 | 标准检测数据集 |
| LVIS | 1203 | 大规模词汇,含有大量长尾类别 |
| Objects365 | 365 | 中等规模检测数据集 |
| OpenImages | 600 | 超大规模,开放词汇友好 |
C. 代码资源
| 资源 | 链接 |
|---|---|
| Ultralytics YOLO | https://github.com/ultralytics/ultralytics |
| YOLO-World 官方 | https://github.com/AILab-CVC/YOLO-World |
| YOLOE | https://github.com/THU-MIG/yoloe |
| GLIP | https://github.com/microsoft/GLIP |
文档版本: 2025年3月
作者: 基于 Ultralytics YOLO 项目代码分析
更多推荐

所有评论(0)