实时开放词汇目标检测研究综述

目录


一、研究背景与问题定义

1.1 传统目标检测的局限性

传统目标检测方法(如 Faster R-CNN、YOLO 系列等)虽然在封闭数据集上取得了显著成功,但存在根本性限制:

传统目标检测的问题:
┌─────────────────────────────────────────────────────────────┐
│  1. 封闭类别设定                                           │
│     - 模型只能识别训练时定义的固定类别                        │
│     - 无法识别新的、未见过的物体类别                         │
│     - 需要大量标注数据训练新类别                             │
│                                                             │
│  2. 泛化能力差                                             │
│     - 对分布外(OOD)数据泛化能力弱                         │
│     - 难以适应新场景新环境                                   │
│                                                             │
│  3. 扩展成本高                                             │
│     - 添加新类别需要重新训练模型                            │
│     - 数据标注和训练成本高昂                                │
│     - 无法快速部署到新应用场景                              │
└─────────────────────────────────────────────────────────────┘

1.2 开放词汇目标检测的定义

开放词汇目标检测(Open-Vocabulary Object Detection, OVOD) 旨在解决传统方法的局限性,其核心目标是:

让检测器能够识别训练集之外的任意物体类别,通过文本描述(自然语言)引导检测器识别新物体。

形式化定义:

给定:
- 输入图像 I
- 文本查询(类别名称或描述)T = {t1, t2, ..., tn}
- 预训练的视觉-语言模型(VLM)

输出:
- 边界框预测 B = {b1, b2, ..., bm}
- 每个边界框对应的类别标签(来自文本查询T)

1.3 研究发展历程

┌────────────────────────────────────────────────────────────────────┐
│                    开放词汇目标检测发展时间线                         │
├────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  2017-2020  萌芽期                                                  │
│  ├── 2017   FAT-COVID (首次使用自然语言进行目标检索)                │
│  ├── 2019   VGPN (视觉短语定位网络)                                │
│  └── 2020   MDETR (多模态解码检测)                                 │
│                                                                     │
│  2021-2022  突破期                                                  │
│  ├── 2021   OVR-CNN (开放词汇R-CNN)                               │
│  ├── 2022   GLIP (语言-图像预训练) ⭐                              │
│  └── 2022   ViLD (视觉-语言蒸馏检测)                               │
│                                                                     │
│  2023-2024  实时期 ⭐                                               │
│  ├── 2023   Grounding DINO (DINO + 基础预训练)                    │
│  ├── 2024   YOLO-World (CNN + 实时开放词汇检测) ⭐                │
│  └── 2024   YOLOE (清华大学 - 超越YOLO-World)                    │
│                                                                     │
│  2025-至今  多模态融合期                                           │
│  └── 2025   多模态大模型 + 实时检测                                │
│                                                                     │
└────────────────────────────────────────────────────────────────────┘

二、开放词汇目标检测与传统目标检测的区别

2.1 核心区别对比

维度 传统目标检测 开放词汇目标检测
类别设定 固定、封闭 开放、灵活
文本输入 不支持 支持自然语言
零样本能力 不支持 支持零样本检测
类别扩展 需重新训练 无需训练即可扩展
视觉-语言对齐 有(CLIP等)
推理速度 快(YOLO等) 较慢(Transformer)
训练数据 检测标注 检测+图像-文本对

2.2 技术架构差异

传统目标检测架构
┌─────────────────────────────────────────────────────────┐
│              传统目标检测架构                            │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  输入图像                                                  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Backbone (CNN/Transformer)                 │  │
│  │           图像特征提取                               │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Neck (FPN/PAN)                            │  │
│  │           多尺度特征融合                             │  │
│  └───────────────────────────────────────────────────�─┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Detection Head                             │  │
│  │           类别预测(固定类别数)                      │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  输出: 边界框 + 预定义类别                               │
│                                                          │
└─────────────────────────────────────────────────────────┘
开放词汇目标检测架构
┌─────────────────────────────────────────────────────────┐
│              开放词汇目标检测架构                          │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  输入: 图像 + 文本查询                                    │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Image Encoder (CNN/Transformer)            │  │
│  │           图像特征提取                               │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Text Encoder (Transformer)                 │  │
│  │           文本嵌入生成(CLIP/BERT)                 │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Vision-Language Alignment                  │  │
│  │           视觉-语言特征融合                          │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Detection Head                             │  │
│  │           开放词汇类别预测                           │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  输出: 边界框 + 文本查询中的类别                          │
│                                                          │
└─────────────────────────────────────────────────────────┘

2.3 检测流程对比

传统检测流程:

图像输入 → 特征提取 → 类别匹配(与固定类别库比对)→ 输出

开放词汇检测流程:

图像 + 文本查询 → 图像编码 + 文本编码 → 跨模态融合 → 开放词汇检测 → 输出

三、开放词汇目标检测的优势

3.1 核心优势

✅ 1. 零样本检测能力

定义:模型能够识别从未在训练集中出现的类别。

示例

# 传统模型:只能检测训练时的80个COCO类别
# YOLO-World:可以检测任意文本描述的类别
model.set_classes(["狮子", "长颈鹿", "斑马", "犀牛"])  # 非洲动物
model.set_classes(["挖掘机", "压路机", "推土机"])  # 工程车辆
✅ 2. 灵活的类别扩展
┌─────────────────────────────────────────────────────────────┐
│                    类别扩展对比                              │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  传统方法:                                                    │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  添加新类别 → 收集数据 → 标注 → 重新训练 → 部署       │   │
│  │  耗时: 数天到数周                                     │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
│  开放词汇方法:                                                │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  输入新类别文本 → 直接检测                               │   │
│  │  耗时: 秒级                                           │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
└─────────────────────────────────────────────────────────────┘
✅ 3. 多模态理解能力
  • 理解自然语言描述
  • 支持复杂查询(“穿红衣服的人”)
  • 结合上下文信息
# 简单类别
model.set_classes(["person", "car"])

# 复杂描述
model.set_classes(["person wearing red jacket", "white car"])
✅ 4. 更好的泛化性
场景 传统方法 开放词汇方法
新物体类别 ❌ 无法检测 ✅ 支持
跨数据集迁移 ⚠️ 需要微调 ✅ 零样本
长尾类别 ⚠️ 数据稀缺 ✅ 文本补偿
领域适应 ⚠️ 需重新训练 ✅ Prompt调整

3.2 与传统方法的性能对比

速度对比
模型 架构 参数量 FPS 实时性
Faster R-CNN RCNN 41M 5
DETR Transformer 41M 20
GLIP-T Transformer 1.3B 10
YOLO-World CNN 0.1B 52
YOLOE CNN ~0.1B ~70
精度对比(LVIS 数据集)
模型 AP APrare 说明
OV-RCNN 22.1 16.5 基线
GLIP-T 26.1 21.3 需大量计算
Grounding DINO 28.2 24.2 Transformer
YOLO-World 28.4 24.5 实时+高精度
YOLOE 31.9 28.3 最新SOTA

四、核心技术方法

4.1 视觉-语言预训练

CLIP(Contrastive Language-Image Pre-training)

核心思想:通过对比学习对齐图像和文本特征。

┌─────────────────────────────────────────────────────────────┐
│                    CLIP 训练流程                            │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   ┌─────────┐         ┌─────────┐                          │
│   │ 图像1   │         │ 文本1   │                          │
│   │ "猫"    │         │ "cat"   │                          │
│   └────┬────┘         └────┬────┘                          │
│        │                   │                               │
│        ▼                   ▼                               │
│   ┌─────────┐         ┌─────────┐                          │
│   │ Image   │         │  Text   │                          │
│   │ Encoder │         │ Encoder │                          │
│   └────┬────┘         └────┬────┘                          │
│        │                   │                               │
│        ▼                   ▼                               │
│   ┌─────────┐         ┌─────────┐                          │
│   │  图像   │◄──────►│  文本   │                          │
│   │  嵌入   │  对比   │  嵌入   │                          │
│   └─────────┘         └─────────┘                          │
│                                                              │
│   目标: 配对的图像-文本嵌入距离近,不配对的距离远              │
│                                                              │
└─────────────────────────────────────────────────────────────┘
损失函数
# CLIP 对比损失
def clip_loss(image_embeds, text_embeds, temperature=0.07):
    """
    image_embeds: 图像嵌入 [B, D]
    text_embeds: 文本嵌入 [B, D]
    temperature: 温度参数
    """
    # 归一化
    image_embeds = F.normalize(image_embeds, dim=-1)
    text_embeds = F.normalize(text_embeds, dim=-1)

    # 计算相似度矩阵
    logits = (image_embeds @ text_embeds.T) / temperature

    # 标签:对角线为正样本
    labels = torch.arange(len(logits)).to(logits.device)

    # 对称损失
    loss_i2t = F.cross_entropy(logits, labels)
    loss_t2i = F.cross_entropy(logits.T, labels)

    return (loss_i2t + loss_t2i) / 2

4.2 区域-文本对齐

区域-文本对比学习

核心思想:将图像区域特征与文本嵌入进行对齐。

┌─────────────────────────────────────────────────────────────┐
│                区域-文本对比学习                              │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   图像区域特征                                                │
│   ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐                      │
│   │ R1 │ │ R2 │ │ R3 │ │ R4 │ │ R5 │  (人物/汽车/建筑...)  │
│   └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘                      │
│      │      │      │      │      │                          │
│      ▼      ▼      ▼      ▼      ▼                          │
│   ┌──────────────────────────────────────────┐             │
│   │         区域特征投影层                     │             │
│   │    Region Features → Region Embeds        │             │
│   └──────────────────────────────────────────┘             │
│                    │                                         │
│                    │  对比学习                               │
│                    ▼                                         │
│   ┌──────────────────────────────────────────┐             │
│   │  文本嵌入 (类别名称)                      │             │
│   │  ["person", "car", "building"]           │             │
│   └──────────────────────────────────────────┘             │
│                                                              │
│   目标: 匹配的区域-文本对距离近,不匹配的远                    │
│                                                              │
└─────────────────────────────────────────────────────────────┘

4.3 提示编码器(Prompt Encoder)

文本提示处理
class PromptEncoder:
    """文本提示编码器"""

    def __init__(self, clip_model):
        self.clip = clip_model
        self.text_encoder = clip.text_encoder

    def encode(self, prompts):
        """
        Args:
            prompts: 文本提示列表 ["person", "car", ...]

        Returns:
            text_embeddings: 文本嵌入 [N, D]
        """
        # Tokenize
        tokens = self.clip.tokenize(prompts)

        # 编码
        with torch.no_grad():
            text_embeddings = self.text_encoder(tokens)

        return text_embeddings

4.4 离线词汇表策略

YOLO-World 的"提示-然后检测"
class OfflineVocabulary:
    """离线词汇表"""

    def __init__(self, categories):
        """
        Args:
            categories: 类别名称列表
        """
        self.categories = categories
        self.text_embeddings = None

    def encode_offline(self, clip_model):
        """离线编码文本提示"""
        # 预计算所有类别的文本嵌入
        self.text_embeddings = clip_model.encode_text(self.categories)

    def get_embeddings(self):
        """获取预计算的嵌入"""
        return self.text_embeddings

五、主流模型架构

5.1 GLIP(Grounded Language-Image Pre-training)

论文信息
  • 作者: Liunian Harold Li, Pengchuan Zhang, et al. (Microsoft)
  • 会议: ICML 2022
  • 链接: https://arxiv.org/abs/2112.03857
核心架构
┌─────────────────────────────────────────────────────────────┐
│                        GLIP 架构                            │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  输入: 图像 + 短语 ("person holding a umbrella")            │
│     │                                                       │
│     ▼                                                       │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              DyHead (Dynamic Head)                   │   │
│  │         图像特征 + 文本特征 融合                      │   │
│  └─────────────────────────────────────────────────────┘   │
│     │                                                       │
│     ▼                                                       │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              短语定位 + 目标检测                      │   │
│  │         phrase grounding + object detection            │   │
│  └─────────────────────────────────────────────────────┘   │
│     │                                                       │
│     ▼                                                       │
│  输出: 边界框 + 短语-框对应关系                              │
│                                                              │
└─────────────────────────────────────────────────────────────┘
创新点
  1. 统一检测和定位任务:将短语定位任务整合到目标检测框架
  2. 语义增强的深度网络:DyHead 融合多尺度视觉特征和语言特征
  3. 大规模数据训练:利用 GoldG(检测+定位)数据训练

5.2 Grounding DINO

论文信息
  • 作者: Shilong Liu, Feng Li, et al. (IDEA, Tsinghua)
  • 会议: CVPR 2024
  • 链接: https://arxiv.org/abs/2303.05499
核心架构
┌─────────────────────────────────────────────────────────────┐
│                    Grounding DINO 架构                      │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  图像分支:                   文本分支:                       │
│  ┌────────────────┐        ┌────────────────┐             │
│  │   Swin-T/O    │        │   BERT/CLIP    │             │
│  │  图像骨干网络  │        │   文本编码器   │             │
│  └───────┬────────┘        └───────┬────────┘             │
│          │                         │                       │
│          ▼                         ▼                       │
│  ┌────────────────┐        ┌────────────────┐             │
│  │   FPN 多尺度   │        │  文本嵌入     │             │
│  │    特征融合    │        │               │             │
│  └───────┬────────┘        └───────┬────────┘             │
│          │                         │                       │
│          │    ┌─────────────────────┘                       │
│          │    │                                             │
│          ▼    ▼                                             │
│  ┌─────────────────────────────────────────────────────┐  │
│  │              Cross-Attention 融合                     │  │
│  │         图像-文本跨模态注意力机制                      │  │
│  └─────────────────────────────────────────────────────┘  │
│          │                                                 │
│          ▼                                                 │
│  ┌─────────────────────────────────────────────────────┐  │
│  │              检测头 (检测 + 定位)                      │  │
│  └─────────────────────────────────────────────────────┘  │
│          │                                                 │
│          ▼                                                 │
│  输出: 边界框 + 置信度 + 类别 (文本)                        │
│                                                              │
└─────────────────────────────────────────────────────────────┘
关键创新
  1. 开集检测能力:通过文本提示检测任意类别
  2. 跨模态融合:DINO 检测器 + CLIP 文本编码器
  3. CAPT 策略:语言指导的 contrastive pre-training

5.3 YOLO-World

论文信息
  • 作者: Cheng Qin, Zhiheng Li, et al. (Tencent AILab-CVC)
  • 会议: CVPR 2024
  • 链接: https://arxiv.org/abs/2401.17270v2
  • GitHub: https://github.com/AILab-CVC/YOLO-World
核心架构

已在之前的文档中详细描述,此处总结关键特点:

"提示-然后检测"策略

# 离线阶段(预计算)
vocabulary = ["person", "car", "bus", ...]
text_embeddings = clip_encode(vocabulary)  # 只执行一次

# 在线阶段(推理)
image_features = backbone(image)
detection = world_head(image_features, text_embeddings)  # 快速检测

性能

  • 参数量:0.1B(GLIP-T 的 1/13)
  • 推理速度:52 FPS(NVIDIA V100)
  • LVIS AP:28.4

5.4 YOLOE(清华团队)

论文信息
  • 作者: THU-MIG (Tsinghua University)
  • 时间: 2025
  • 链接: https://github.com/THU-MIG/yoloe
核心改进

相比 YOLO-World 的主要提升:

指标 YOLO-Worldv2 YOLOE 提升
LVIS AP 28.4 31.9 +3.5
训练资源 3x 1x 3x 减少
推理速度 52 FPS 73 FPS 1.4x 提升
技术创新
  1. 重参化设计:推理时将开放词汇模块合并到标准检测头
  2. 三种提示模式
    • 文本提示(Text Prompt)
    • 视觉提示(Visual Prompt)
    • 内部词汇(1200+ 类别)
# YOLOE 支持三种提示模式
model = YOLO("yoloe-11s-seg.pt")

# 文本提示
model.set_classes(["person", "traffic light"])

# 视觉提示(给定参考图像)
model.set_image_prompts(reference_images)

# 内部词汇(无需提示)
results = model.predict("image.jpg")  # 自动使用1200+类别

六、最新研究进展

6.1 2024-2025 年重要进展

1. YOLO-Worldv2

发布时间: 2024年中

主要改进:

  • 更强的文本编码器
  • 改进的区域-文本对比
  • 更大的预训练数据集

性能提升:

LVIS AP: 28.4 → 30.2 (+1.8)
2. YOLOE

发布时间: 2025年初

核心突破:

  • CNN路线的开放词汇检测新SOTA
  • 训练效率提升 3 倍
  • 推理速度提升 1.4 倍
3. YOLO-IOD

论文: YOLO-IOD: Towards Real-Time Incremental Object Detection

核心思想:

  • 增量目标检测
  • 无需重新训练即可添加新类别
  • 结合开放词汇和增量学习
4. 多模态大模型融合

趋势:

GPT-4V + 目标检测 → 智能检测助手
LLaVA + YOLO → 视觉理解检测

6.2 技术发展路线

┌─────────────────────────────────────────────────────────────────────┐
│                      技术演进路线                                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  Stage 1: 纯Transformer路线                                          │
│  ├── GLIP → Grounding DINO → GLIPv2                                │
│  ├── 优点: 精度高,能力全面                                         │
│  └── 缺点: 计算量大,推理慢                                          │
│                                                                      │
│  Stage 2: CNN+Transformer混合路线                                     │
│  ├── YOLO-World → YOLOE                                             │
│  ├── 优点: 实时性好,精度损失小                                       │
│  └── 缺点: 需要更好的融合机制                                         │
│                                                                      │
│  Stage 3: 端到端多模态融合                                           │
│  ├── 多模态大模型 + 检测头                                           │
│  ├── 优点: 统一框架,能力最强                                        │
│  └── 缺点: 计算资源要求高                                            │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

七、国内外研究现状

7.1 国际研究

代表团队与成果
机构 代表工作 特点
Microsoft GLIP系列 开创性的语言-图像预训练
Google PaLI, PaLM-E 大规模多模态模型
Meta AI SAM, DINOv2 分割和特征学习
IDEA (清华深圳) Grounding DINO 开集检测新范式
Ultralytics YOLOv8-World 实时开放词汇检测
重要论文列表
  1. GLIP (ICML 2022)

    • Li et al., Microsoft
    • https://arxiv.org/abs/2112.03857
  2. Grounding DINO (CVPR 2024)

    • Liu et al., IDEA & Tsinghua
    • https://arxiv.org/abs/2303.05499
  3. YOLO-World (CVPR 2024)

    • Qin et al., Tencent AILab
    • https://arxiv.org/abs/2401.17270v2
  4. OV-RCNN (ICCV 2021)

    • Zareian et al.
    • 开放词汇R-CNN基线

7.2 国内研究

代表团队与成果
机构 代表工作 特点
清华大学 YOLOE, Grounding DINO 实时高效,CNN路线
腾讯AILab YOLO-World 工业级应用
华为诺亚 CLIP-DINO 对比学习优化
商汤科技 UniDetector 统一检测框架
旷视科技 YOLOX, YOLOv6 实时检测优化
YOLOE(清华大学)详解

论文: YOLOE: Real-Time Open-Vocabulary Object Detection

核心技术:

  1. 重参化开放词汇头
# 训练时:使用文本嵌入
text_embeds = text_encoder(class_names)
detection = open_vocab_head(image_feats, text_embeds)

# 推理时:重参化为标准检测头
detection = standard_head(image_feats)  # 无需文本嵌入
  1. 三种提示模式
# 文本提示
model.set_classes(["person", "car"])

# 视觉提示
model.set_image_prompts(reference_images)

# 内部词汇(1200+类别)
results = model.predict("image.jpg")
  1. 性能数据
模型 LVIS AP 速度 (FPS) 训练资源
YOLO-Worldv2 30.2 52 3x
YOLOE-11s 31.9 73 1x

7.3 工业应用现状

商业产品
产品 公司 应用场景
Ultralytics HUB Ultralytics 云端训练+部署
腾讯云 腾讯 智能监控
华为好望 华为 安防检测
商汤SenseVision 商汤 自动驾驶
开源生态
┌─────────────────────────────────────────────────────────────┐
│                    开源生态概况                               │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  Ultralytics YOLO-World                                     │
│  ├── GitHub: 12k+ ⭐                                        │
│  ├── 模型: YOLOv8-World, YOLO11-World                       │
│  └── 特点: 工业级稳定,易用性好                              │
│                                                              │
│  Tencent YOLO-World                                          │
│  ├── GitHub: 8k+ ⭐                                         │
│  ├── 模型: YOLOv8-Worldv2                                   │
│  └── 特点: 官方实现,更新快                                  │
│                                                              │
│  THU-MIG YOLOE                                              │
│  ├── GitHub: 3k+ ⭐ (new)                                   │
│  ├── 模型: YOLOE系列                                         │
│  └── 特点: 最新SOTA,精度最高                                │
│                                                              │
└─────────────────────────────────────────────────────────────┘

八、未来发展方向

8.1 当前研究热点

1. 多模态大模型融合

目标:将 GPT-4V、LLaVA 等大模型的能力融合到检测任务

研究方向:
├── 视觉-语言模型 + 检测头
├── 思维链推理 + 检测
├── 视觉问答 + 检测
└── 少样本检测
2. 端到端开放词汇检测

目标:从图像输入直接到开放词汇输出,无需两阶段处理

# 当前:两阶段
image → CLIP编码 → 特征融合 → 检测

# 未来:端到端
image → 多模态大模型 → 开放词汇检测
3. 增量式开放词汇检测

目标:无需重新训练,持续添加新类别

增量检测能力:
├── 添加新类别 → 不影响旧类别
├── 实时更新词汇表
├── 保持检测速度
└── 减少计算开销

8.2 技术挑战

挑战 描述 当前解决方案
精度-速度权衡 开放词汇检测通常比传统方法慢 CNN+Transformer混合架构
长尾类别 稀有类别检测效果差 文本嵌入补偿
复杂描述理解 难以理解复杂自然语言 Prompt工程
领域适应 从实验室到实际场景 域适应技术

8.3 应用前景

┌─────────────────────────────────────────────────────────────┐
│                    应用领域                                   │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  🏭 工业检测                                                │
│  ├── 缺陷检测(任意缺陷类型)                                │
│  ├── 质量控制(灵活标准定义)                                │
│  └── 物流分拣(新品类快速部署)                              │
│                                                              │
│  🚗 自动驾驶                                                │
│  ├── 罕见障碍物检测                                          │
│  ├── 交通标志识别                                             │
│  └── 场景理解                                                │
│                                                              │
│  🏥 医疗影像                                                │
│  ├── 病变区域检测                                            │
│  ├── 新疾病类型识别                                           │
│  └── 医学报告生成                                            │
│                                                              │
│  🛒 零售分析                                                │
│  ├── 商品识别                                                 │
│  ├── 顾客行为分析                                             │
│  └── 新商品自动注册                                          │
│                                                              │
│  🌐 视频监控                                                │
│  ├── 异常行为检测                                            │
│  ├── 多场景自适应                                             │
│  └── 隐私保护                                                │
│                                                              │
└─────────────────────────────────────────────────────────────┘

九、参考文献

经典论文

1. YOLO-World: Real-Time Open-Vocabulary Object Detection
@inproceedings{yolo-world-cvpr2024,
  title={YOLO-World: Real-Time Open-Vocabulary Object Detection},
  author={Qin, Cheng and Li, Zhiheng and Ge, Yixiao and Wang, Zeyu and others},
  booktitle={CVPR},
  year={2024}
}
  • 链接: https://arxiv.org/abs/2401.17270v2
  • GitHub: https://github.com/AILab-CVC/YOLO-World
2. GLIP: Grounded Language-Image Pre-training
@inproceedings{glip-icml2022,
  title={GLIP: Grounded Language-Image Pre-training},
  author={Li, Liunian Harold and Zhang, Pengchuan and Zhang, Haotian and others},
  booktitle={ICML},
  year={2022}
}
  • 链接: https://arxiv.org/abs/2112.03857
  • GitHub: https://github.com/microsoft/GLIP
3. Grounding DINO: Marrying DINO with Grounded Pre-training
@inproceedings{grounding-dino-cvpr2024,
  title={Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection},
  author={Liu, Shilong and Li, Feng and Zhang, Hao and others},
  booktitle={CVPR},
  year={2024}
}
  • 链接: https://arxiv.org/abs/2303.05499
4. MDETR: Modulated Detection for End-to-End Multi-Modal Understanding
@inproceedings{mdetr-iccv2021,
  title={MDETR: Modulated Detection for End-to-End Multi-Modal Understanding},
  author={Kamath, Aishwarya and Singh, Mannat and LeCun, Yann and others},
  booktitle={ICCV},
  year={2021}
}
  • 链接: https://arxiv.org/abs/2104.12763
5. CLIP: Learning Transferable Visual Models From Natural Language
@inproceedings{clip-pmlr2021,
  title={CLIP: Learning Transferable Visual Models From Natural Language},
  author={Radford, Alec and Kim, Jong Wook and Hallacy, Chris and others},
  booktitle={ICML},
  year={2021}
}
  • 链接: https://arxiv.org/abs/2103.00020

最新论文

6. YOLOE: Real-Time Open-Vocabulary Object Detection
@article{yoloe-2025,
  title={YOLOE: Real-Time Open-Vocabulary Object Detection},
  author={THU-MIG},
  year={2025},
  institution={Tsinghua University}
}
  • GitHub: https://github.com/THU-MIG/yoloe
7. YOLO-IOD: Towards Real-Time Incremental Object Detection
@article{yolo-iod-2024,
  title={YOLO-IOD: Towards Real-Time Incremental Object Detection},
  author={},
  year={2024}
}

基础检测论文

8. YOLOv8
@article{yolov8-2023,
  title={YOLOv8: A State-of-the-Art Object Detection Model},
  author={Ultralytics},
  year={2023},
  institution={Ultralytics}
}
9. DINO: DETR with Improved DeNoising Anchor Boxes
@inproceedings{dino-iclr2022,
  title={DINO: DETR with Improved DeNoising Anchor Boxes},
  author={Zhang, Haiyang and Li, Feng and others},
  booktitle={ICLR},
  year={2022}
}
10. SAM: Segment Anything Model
@article{sam-2023,
  title={Segment Anything Model},
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and others},
  booktitle={ICCV},
  year={2023}
}
  • 链接: https://arxiv.org/abs/2304.02643

附录

A. 术语表

术语 英文 定义
开放词汇检测 Open-Vocabulary Detection 能检测任意文本描述类别的目标检测
零样本学习 Zero-Shot Learning 识别从未见过的类别
视觉-语言对齐 Vision-Language Alignment 图像和文本特征的对齐
提示编码 Prompt Encoding 将文本提示转换为模型可处理的格式
区域-文本对比 Region-Text Contrastive 图像区域与文本嵌入的对比学习

B. 数据集

数据集 类别数 特点
COCO 80 标准检测数据集
LVIS 1203 大规模词汇,含有大量长尾类别
Objects365 365 中等规模检测数据集
OpenImages 600 超大规模,开放词汇友好

C. 代码资源

资源 链接
Ultralytics YOLO https://github.com/ultralytics/ultralytics
YOLO-World 官方 https://github.com/AILab-CVC/YOLO-World
YOLOE https://github.com/THU-MIG/yoloe
GLIP https://github.com/microsoft/GLIP

文档版本: 2025年3月
作者: 基于 Ultralytics YOLO 项目代码分析

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐