实时开放词汇目标检测研究综述

开放词汇目标检测研究综述摘要开放词汇目标检测(OVOD)突破了传统目标检测的封闭类别限制，能够通过自然语言描述识别任意新类别。本文系统梳理了OVOD的研究进展：首先分析传统检测方法的局限性(封闭类别、泛化能力差、扩展成本高)，明确OVOD的核心定义是"基于文本引导识别新物体"；其次对比传统与开放检测在类别设定、文本输入、零样本能力等方面的差异；然后介绍OVOD发展历程，从20

肆十二

629人浏览 · 2026-03-22 14:57:53

肆十二 · 2026-03-22 14:57:53 发布

实时开放词汇目标检测研究综述

一、研究背景与问题定义

1.1 传统目标检测的局限性

传统目标检测方法（如 Faster R-CNN、YOLO 系列等）虽然在封闭数据集上取得了显著成功，但存在根本性限制：

传统目标检测的问题：
┌─────────────────────────────────────────────────────────────┐
│  1. 封闭类别设定                                           │
│     - 模型只能识别训练时定义的固定类别                        │
│     - 无法识别新的、未见过的物体类别                         │
│     - 需要大量标注数据训练新类别                             │
│                                                             │
│  2. 泛化能力差                                             │
│     - 对分布外（OOD）数据泛化能力弱                         │
│     - 难以适应新场景新环境                                   │
│                                                             │
│  3. 扩展成本高                                             │
│     - 添加新类别需要重新训练模型                            │
│     - 数据标注和训练成本高昂                                │
│     - 无法快速部署到新应用场景                              │
└─────────────────────────────────────────────────────────────┘

1.2 开放词汇目标检测的定义

开放词汇目标检测（Open-Vocabulary Object Detection, OVOD） 旨在解决传统方法的局限性，其核心目标是：

让检测器能够识别训练集之外的任意物体类别，通过文本描述（自然语言）引导检测器识别新物体。

形式化定义：

给定：
- 输入图像 I
- 文本查询（类别名称或描述）T = {t1, t2, ..., tn}
- 预训练的视觉-语言模型（VLM）

输出：
- 边界框预测 B = {b1, b2, ..., bm}
- 每个边界框对应的类别标签（来自文本查询T）

1.3 研究发展历程

┌────────────────────────────────────────────────────────────────────┐
│                    开放词汇目标检测发展时间线                         │
├────────────────────────────────────────────────────────────────────┤
│                                                                     │
│  2017-2020  萌芽期                                                  │
│  ├── 2017   FAT-COVID (首次使用自然语言进行目标检索)                │
│  ├── 2019   VGPN (视觉短语定位网络)                                │
│  └── 2020   MDETR (多模态解码检测)                                 │
│                                                                     │
│  2021-2022  突破期                                                  │
│  ├── 2021   OVR-CNN (开放词汇R-CNN)                               │
│  ├── 2022   GLIP (语言-图像预训练) ⭐                              │
│  └── 2022   ViLD (视觉-语言蒸馏检测)                               │
│                                                                     │
│  2023-2024  实时期 ⭐                                               │
│  ├── 2023   Grounding DINO (DINO + 基础预训练)                    │
│  ├── 2024   YOLO-World (CNN + 实时开放词汇检测) ⭐                │
│  └── 2024   YOLOE (清华大学 - 超越YOLO-World)                    │
│                                                                     │
│  2025-至今  多模态融合期                                           │
│  └── 2025   多模态大模型 + 实时检测                                │
│                                                                     │
└────────────────────────────────────────────────────────────────────┘

二、开放词汇目标检测与传统目标检测的区别

2.1 核心区别对比

维度	传统目标检测	开放词汇目标检测
类别设定	固定、封闭	开放、灵活
文本输入	不支持	支持自然语言
零样本能力	不支持	支持零样本检测
类别扩展	需重新训练	无需训练即可扩展
视觉-语言对齐	无	有（CLIP等）
推理速度	快（YOLO等）	较慢（Transformer）
训练数据	检测标注	检测+图像-文本对

2.2 技术架构差异

传统目标检测架构

┌─────────────────────────────────────────────────────────┐
│              传统目标检测架构                            │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  输入图像                                                  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Backbone (CNN/Transformer)                 │  │
│  │           图像特征提取                               │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Neck (FPN/PAN)                            │  │
│  │           多尺度特征融合                             │  │
│  └───────────────────────────────────────────────────�─┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Detection Head                             │  │
│  │           类别预测（固定类别数）                      │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  输出: 边界框 + 预定义类别                               │
│                                                          │
└─────────────────────────────────────────────────────────┘

开放词汇目标检测架构

┌─────────────────────────────────────────────────────────┐
│              开放词汇目标检测架构                          │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  输入: 图像 + 文本查询                                    │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Image Encoder (CNN/Transformer)            │  │
│  │           图像特征提取                               │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Text Encoder (Transformer)                 │  │
│  │           文本嵌入生成（CLIP/BERT）                 │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Vision-Language Alignment                  │  │
│  │           视觉-语言特征融合                          │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  ┌───────────────────────────────────────────────────┐  │
│  │           Detection Head                             │  │
│  │           开放词汇类别预测                           │  │
│  └───────────────────────────────────────────────────┘  │
│     │                                                     │
│     ▼                                                     │
│  输出: 边界框 + 文本查询中的类别                          │
│                                                          │
└─────────────────────────────────────────────────────────┘

2.3 检测流程对比

传统检测流程：

图像输入 → 特征提取 → 类别匹配（与固定类别库比对）→ 输出

开放词汇检测流程：

图像 + 文本查询 → 图像编码 + 文本编码 → 跨模态融合 → 开放词汇检测 → 输出

三、开放词汇目标检测的优势

3.1 核心优势

✅ 1. 零样本检测能力

定义：模型能够识别从未在训练集中出现的类别。

示例：

# 传统模型：只能检测训练时的80个COCO类别
# YOLO-World：可以检测任意文本描述的类别
model.set_classes(["狮子", "长颈鹿", "斑马", "犀牛"])  # 非洲动物
model.set_classes(["挖掘机", "压路机", "推土机"])  # 工程车辆

✅ 2. 灵活的类别扩展

┌─────────────────────────────────────────────────────────────┐
│                    类别扩展对比                              │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  传统方法:                                                    │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  添加新类别 → 收集数据 → 标注 → 重新训练 → 部署       │   │
│  │  耗时: 数天到数周                                     │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
│  开放词汇方法:                                                │
│  ┌─────────────────────────────────────────────────────┐   │
│  │  输入新类别文本 → 直接检测                               │   │
│  │  耗时: 秒级                                           │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

✅ 3. 多模态理解能力

理解自然语言描述
支持复杂查询（“穿红衣服的人”）
结合上下文信息

# 简单类别
model.set_classes(["person", "car"])

# 复杂描述
model.set_classes(["person wearing red jacket", "white car"])

✅ 4. 更好的泛化性

场景	传统方法	开放词汇方法
新物体类别	❌ 无法检测	✅ 支持
跨数据集迁移	⚠️ 需要微调	✅ 零样本
长尾类别	⚠️ 数据稀缺	✅ 文本补偿
领域适应	⚠️ 需重新训练	✅ Prompt调整

3.2 与传统方法的性能对比

速度对比

模型	架构	参数量	FPS	实时性
Faster R-CNN	RCNN	41M	5	❌
DETR	Transformer	41M	20	❌
GLIP-T	Transformer	1.3B	10	❌
YOLO-World	CNN	0.1B	52	✅
YOLOE	CNN	~0.1B	~70	✅

精度对比（LVIS 数据集）

模型	AP	AP_rare	说明
OV-RCNN	22.1	16.5	基线
GLIP-T	26.1	21.3	需大量计算
Grounding DINO	28.2	24.2	Transformer
YOLO-World	28.4	24.5	实时+高精度
YOLOE	31.9	28.3	最新SOTA

四、核心技术方法

4.1 视觉-语言预训练

CLIP（Contrastive Language-Image Pre-training）

核心思想：通过对比学习对齐图像和文本特征。

┌─────────────────────────────────────────────────────────────┐
│                    CLIP 训练流程                            │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   ┌─────────┐         ┌─────────┐                          │
│   │ 图像1   │         │ 文本1   │                          │
│   │ "猫"    │         │ "cat"   │                          │
│   └────┬────┘         └────┬────┘                          │
│        │                   │                               │
│        ▼                   ▼                               │
│   ┌─────────┐         ┌─────────┐                          │
│   │ Image   │         │  Text   │                          │
│   │ Encoder │         │ Encoder │                          │
│   └────┬────┘         └────┬────┘                          │
│        │                   │                               │
│        ▼                   ▼                               │
│   ┌─────────┐         ┌─────────┐                          │
│   │  图像   │◄──────►│  文本   │                          │
│   │  嵌入   │  对比   │  嵌入   │                          │
│   └─────────┘         └─────────┘                          │
│                                                              │
│   目标: 配对的图像-文本嵌入距离近，不配对的距离远              │
│                                                              │
└─────────────────────────────────────────────────────────────┘

损失函数

# CLIP 对比损失
def clip_loss(image_embeds, text_embeds, temperature=0.07):
    """
    image_embeds: 图像嵌入 [B, D]
    text_embeds: 文本嵌入 [B, D]
    temperature: 温度参数
    """
    # 归一化
    image_embeds = F.normalize(image_embeds, dim=-1)
    text_embeds = F.normalize(text_embeds, dim=-1)

    # 计算相似度矩阵
    logits = (image_embeds @ text_embeds.T) / temperature

    # 标签：对角线为正样本
    labels = torch.arange(len(logits)).to(logits.device)

    # 对称损失
    loss_i2t = F.cross_entropy(logits, labels)
    loss_t2i = F.cross_entropy(logits.T, labels)

    return (loss_i2t + loss_t2i) / 2

4.2 区域-文本对齐

区域-文本对比学习

核心思想：将图像区域特征与文本嵌入进行对齐。

┌─────────────────────────────────────────────────────────────┐
│                区域-文本对比学习                              │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   图像区域特征                                                │
│   ┌────┐ ┌────┐ ┌────┐ ┌────┐ ┌────┐                      │
│   │ R1 │ │ R2 │ │ R3 │ │ R4 │ │ R5 │  (人物/汽车/建筑...)  │
│   └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘                      │
│      │      │      │      │      │                          │
│      ▼      ▼      ▼      ▼      ▼                          │
│   ┌──────────────────────────────────────────┐             │
│   │         区域特征投影层                     │             │
│   │    Region Features → Region Embeds        │             │
│   └──────────────────────────────────────────┘             │
│                    │                                         │
│                    │  对比学习                               │
│                    ▼                                         │
│   ┌──────────────────────────────────────────┐             │
│   │  文本嵌入 (类别名称)                      │             │
│   │  ["person", "car", "building"]           │             │
│   └──────────────────────────────────────────┘             │
│                                                              │
│   目标: 匹配的区域-文本对距离近，不匹配的远                    │
│                                                              │
└─────────────────────────────────────────────────────────────┘

4.3 提示编码器（Prompt Encoder）

文本提示处理

class PromptEncoder:
    """文本提示编码器"""

    def __init__(self, clip_model):
        self.clip = clip_model
        self.text_encoder = clip.text_encoder

    def encode(self, prompts):
        """
        Args:
            prompts: 文本提示列表 ["person", "car", ...]

        Returns:
            text_embeddings: 文本嵌入 [N, D]
        """
        # Tokenize
        tokens = self.clip.tokenize(prompts)

        # 编码
        with torch.no_grad():
            text_embeddings = self.text_encoder(tokens)

        return text_embeddings

4.4 离线词汇表策略

YOLO-World 的"提示-然后检测"

class OfflineVocabulary:
    """离线词汇表"""

    def __init__(self, categories):
        """
        Args:
            categories: 类别名称列表
        """
        self.categories = categories
        self.text_embeddings = None

    def encode_offline(self, clip_model):
        """离线编码文本提示"""
        # 预计算所有类别的文本嵌入
        self.text_embeddings = clip_model.encode_text(self.categories)

    def get_embeddings(self):
        """获取预计算的嵌入"""
        return self.text_embeddings

五、主流模型架构

5.1 GLIP（Grounded Language-Image Pre-training）

论文信息

作者: Liunian Harold Li, Pengchuan Zhang, et al. (Microsoft)
会议: ICML 2022
链接: https://arxiv.org/abs/2112.03857

核心架构

┌─────────────────────────────────────────────────────────────┐
│                        GLIP 架构                            │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  输入: 图像 + 短语 ("person holding a umbrella")            │
│     │                                                       │
│     ▼                                                       │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              DyHead (Dynamic Head)                   │   │
│  │         图像特征 + 文本特征 融合                      │   │
│  └─────────────────────────────────────────────────────┘   │
│     │                                                       │
│     ▼                                                       │
│  ┌─────────────────────────────────────────────────────┐   │
│  │              短语定位 + 目标检测                      │   │
│  │         phrase grounding + object detection            │   │
│  └─────────────────────────────────────────────────────┘   │
│     │                                                       │
│     ▼                                                       │
│  输出: 边界框 + 短语-框对应关系                              │
│                                                              │
└─────────────────────────────────────────────────────────────┘

创新点

统一检测和定位任务：将短语定位任务整合到目标检测框架
语义增强的深度网络：DyHead 融合多尺度视觉特征和语言特征
大规模数据训练：利用 GoldG（检测+定位）数据训练

5.2 Grounding DINO

论文信息

作者: Shilong Liu, Feng Li, et al. (IDEA, Tsinghua)
会议: CVPR 2024
链接: https://arxiv.org/abs/2303.05499

核心架构

┌─────────────────────────────────────────────────────────────┐
│                    Grounding DINO 架构                      │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  图像分支:                   文本分支:                       │
│  ┌────────────────┐        ┌────────────────┐             │
│  │   Swin-T/O    │        │   BERT/CLIP    │             │
│  │  图像骨干网络  │        │   文本编码器   │             │
│  └───────┬────────┘        └───────┬────────┘             │
│          │                         │                       │
│          ▼                         ▼                       │
│  ┌────────────────┐        ┌────────────────┐             │
│  │   FPN 多尺度   │        │  文本嵌入     │             │
│  │    特征融合    │        │               │             │
│  └───────┬────────┘        └───────┬────────┘             │
│          │                         │                       │
│          │    ┌─────────────────────┘                       │
│          │    │                                             │
│          ▼    ▼                                             │
│  ┌─────────────────────────────────────────────────────┐  │
│  │              Cross-Attention 融合                     │  │
│  │         图像-文本跨模态注意力机制                      │  │
│  └─────────────────────────────────────────────────────┘  │
│          │                                                 │
│          ▼                                                 │
│  ┌─────────────────────────────────────────────────────┐  │
│  │              检测头 (检测 + 定位)                      │  │
│  └─────────────────────────────────────────────────────┘  │
│          │                                                 │
│          ▼                                                 │
│  输出: 边界框 + 置信度 + 类别 (文本)                        │
│                                                              │
└─────────────────────────────────────────────────────────────┘

关键创新

开集检测能力：通过文本提示检测任意类别
跨模态融合：DINO 检测器 + CLIP 文本编码器
CAPT 策略：语言指导的 contrastive pre-training

5.3 YOLO-World

论文信息

作者: Cheng Qin, Zhiheng Li, et al. (Tencent AILab-CVC)
会议: CVPR 2024
链接: https://arxiv.org/abs/2401.17270v2
GitHub: https://github.com/AILab-CVC/YOLO-World

核心架构

已在之前的文档中详细描述，此处总结关键特点：

"提示-然后检测"策略：

# 离线阶段（预计算）
vocabulary = ["person", "car", "bus", ...]
text_embeddings = clip_encode(vocabulary)  # 只执行一次

# 在线阶段（推理）
image_features = backbone(image)
detection = world_head(image_features, text_embeddings)  # 快速检测

性能：

参数量：0.1B（GLIP-T 的 1/13）
推理速度：52 FPS（NVIDIA V100）
LVIS AP：28.4

5.4 YOLOE（清华团队）

论文信息

作者: THU-MIG (Tsinghua University)
时间: 2025
链接: https://github.com/THU-MIG/yoloe

核心改进

相比 YOLO-World 的主要提升：

指标	YOLO-Worldv2	YOLOE	提升
LVIS AP	28.4	31.9	+3.5
训练资源	3x	1x	3x 减少
推理速度	52 FPS	73 FPS	1.4x 提升

技术创新

重参化设计：推理时将开放词汇模块合并到标准检测头
三种提示模式：
- 文本提示（Text Prompt）
- 视觉提示（Visual Prompt）
- 内部词汇（1200+ 类别）

# YOLOE 支持三种提示模式
model = YOLO("yoloe-11s-seg.pt")

# 文本提示
model.set_classes(["person", "traffic light"])

# 视觉提示（给定参考图像）
model.set_image_prompts(reference_images)

# 内部词汇（无需提示）
results = model.predict("image.jpg")  # 自动使用1200+类别

六、最新研究进展

6.1 2024-2025 年重要进展

1. YOLO-Worldv2

发布时间: 2024年中

主要改进:

更强的文本编码器
改进的区域-文本对比
更大的预训练数据集

性能提升:

LVIS AP: 28.4 → 30.2 (+1.8)

2. YOLOE

发布时间: 2025年初

核心突破:

CNN路线的开放词汇检测新SOTA
训练效率提升 3 倍
推理速度提升 1.4 倍

3. YOLO-IOD

论文: YOLO-IOD: Towards Real-Time Incremental Object Detection

核心思想:

增量目标检测
无需重新训练即可添加新类别
结合开放词汇和增量学习

4. 多模态大模型融合

趋势:

GPT-4V + 目标检测 → 智能检测助手
LLaVA + YOLO → 视觉理解检测

6.2 技术发展路线

┌─────────────────────────────────────────────────────────────────────┐
│                      技术演进路线                                     │
├─────────────────────────────────────────────────────────────────────┤
│                                                                      │
│  Stage 1: 纯Transformer路线                                          │
│  ├── GLIP → Grounding DINO → GLIPv2                                │
│  ├── 优点: 精度高，能力全面                                         │
│  └── 缺点: 计算量大，推理慢                                          │
│                                                                      │
│  Stage 2: CNN+Transformer混合路线                                     │
│  ├── YOLO-World → YOLOE                                             │
│  ├── 优点: 实时性好，精度损失小                                       │
│  └── 缺点: 需要更好的融合机制                                         │
│                                                                      │
│  Stage 3: 端到端多模态融合                                           │
│  ├── 多模态大模型 + 检测头                                           │
│  ├── 优点: 统一框架，能力最强                                        │
│  └── 缺点: 计算资源要求高                                            │
│                                                                      │
└─────────────────────────────────────────────────────────────────────┘

七、国内外研究现状

7.1 国际研究

代表团队与成果

机构	代表工作	特点
Microsoft	GLIP系列	开创性的语言-图像预训练
Google	PaLI, PaLM-E	大规模多模态模型
Meta AI	SAM, DINOv2	分割和特征学习
IDEA (清华深圳)	Grounding DINO	开集检测新范式
Ultralytics	YOLOv8-World	实时开放词汇检测

重要论文列表

GLIP (ICML 2022)
- Li et al., Microsoft
- https://arxiv.org/abs/2112.03857
Grounding DINO (CVPR 2024)
- Liu et al., IDEA & Tsinghua
- https://arxiv.org/abs/2303.05499
YOLO-World (CVPR 2024)
- Qin et al., Tencent AILab
- https://arxiv.org/abs/2401.17270v2
OV-RCNN (ICCV 2021)
- Zareian et al.
- 开放词汇R-CNN基线

7.2 国内研究

代表团队与成果

机构	代表工作	特点
清华大学	YOLOE, Grounding DINO	实时高效，CNN路线
腾讯AILab	YOLO-World	工业级应用
华为诺亚	CLIP-DINO	对比学习优化
商汤科技	UniDetector	统一检测框架
旷视科技	YOLOX, YOLOv6	实时检测优化

YOLOE（清华大学）详解

论文: YOLOE: Real-Time Open-Vocabulary Object Detection

核心技术:

重参化开放词汇头

# 训练时：使用文本嵌入
text_embeds = text_encoder(class_names)
detection = open_vocab_head(image_feats, text_embeds)

# 推理时：重参化为标准检测头
detection = standard_head(image_feats)  # 无需文本嵌入

三种提示模式

# 文本提示
model.set_classes(["person", "car"])

# 视觉提示
model.set_image_prompts(reference_images)

# 内部词汇（1200+类别）
results = model.predict("image.jpg")

性能数据

模型	LVIS AP	速度 (FPS)	训练资源
YOLO-Worldv2	30.2	52	3x
YOLOE-11s	31.9	73	1x

7.3 工业应用现状

商业产品

产品	公司	应用场景
Ultralytics HUB	Ultralytics	云端训练+部署
腾讯云	腾讯	智能监控
华为好望	华为	安防检测
商汤SenseVision	商汤	自动驾驶

开源生态

┌─────────────────────────────────────────────────────────────┐
│                    开源生态概况                               │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  Ultralytics YOLO-World                                     │
│  ├── GitHub: 12k+ ⭐                                        │
│  ├── 模型: YOLOv8-World, YOLO11-World                       │
│  └── 特点: 工业级稳定，易用性好                              │
│                                                              │
│  Tencent YOLO-World                                          │
│  ├── GitHub: 8k+ ⭐                                         │
│  ├── 模型: YOLOv8-Worldv2                                   │
│  └── 特点: 官方实现，更新快                                  │
│                                                              │
│  THU-MIG YOLOE                                              │
│  ├── GitHub: 3k+ ⭐ (new)                                   │
│  ├── 模型: YOLOE系列                                         │
│  └── 特点: 最新SOTA，精度最高                                │
│                                                              │
└─────────────────────────────────────────────────────────────┘

八、未来发展方向

8.1 当前研究热点

1. 多模态大模型融合

目标：将 GPT-4V、LLaVA 等大模型的能力融合到检测任务

研究方向：
├── 视觉-语言模型 + 检测头
├── 思维链推理 + 检测
├── 视觉问答 + 检测
└── 少样本检测

2. 端到端开放词汇检测

目标：从图像输入直接到开放词汇输出，无需两阶段处理

# 当前：两阶段
image → CLIP编码 → 特征融合 → 检测

# 未来：端到端
image → 多模态大模型 → 开放词汇检测

3. 增量式开放词汇检测

目标：无需重新训练，持续添加新类别

增量检测能力：
├── 添加新类别 → 不影响旧类别
├── 实时更新词汇表
├── 保持检测速度
└── 减少计算开销

8.2 技术挑战

挑战	描述	当前解决方案
精度-速度权衡	开放词汇检测通常比传统方法慢	CNN+Transformer混合架构
长尾类别	稀有类别检测效果差	文本嵌入补偿
复杂描述理解	难以理解复杂自然语言	Prompt工程
领域适应	从实验室到实际场景	域适应技术

8.3 应用前景

┌─────────────────────────────────────────────────────────────┐
│                    应用领域                                   │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  🏭 工业检测                                                │
│  ├── 缺陷检测（任意缺陷类型）                                │
│  ├── 质量控制（灵活标准定义）                                │
│  └── 物流分拣（新品类快速部署）                              │
│                                                              │
│  🚗 自动驾驶                                                │
│  ├── 罕见障碍物检测                                          │
│  ├── 交通标志识别                                             │
│  └── 场景理解                                                │
│                                                              │
│  🏥 医疗影像                                                │
│  ├── 病变区域检测                                            │
│  ├── 新疾病类型识别                                           │
│  └── 医学报告生成                                            │
│                                                              │
│  🛒 零售分析                                                │
│  ├── 商品识别                                                 │
│  ├── 顾客行为分析                                             │
│  └── 新商品自动注册                                          │
│                                                              │
│  🌐 视频监控                                                │
│  ├── 异常行为检测                                            │
│  ├── 多场景自适应                                             │
│  └── 隐私保护                                                │
│                                                              │
└─────────────────────────────────────────────────────────────┘

九、参考文献

经典论文

1. YOLO-World: Real-Time Open-Vocabulary Object Detection

@inproceedings{yolo-world-cvpr2024,
  title={YOLO-World: Real-Time Open-Vocabulary Object Detection},
  author={Qin, Cheng and Li, Zhiheng and Ge, Yixiao and Wang, Zeyu and others},
  booktitle={CVPR},
  year={2024}
}

链接: https://arxiv.org/abs/2401.17270v2
GitHub: https://github.com/AILab-CVC/YOLO-World

2. GLIP: Grounded Language-Image Pre-training

@inproceedings{glip-icml2022,
  title={GLIP: Grounded Language-Image Pre-training},
  author={Li, Liunian Harold and Zhang, Pengchuan and Zhang, Haotian and others},
  booktitle={ICML},
  year={2022}
}

链接: https://arxiv.org/abs/2112.03857
GitHub: https://github.com/microsoft/GLIP

3. Grounding DINO: Marrying DINO with Grounded Pre-training

@inproceedings{grounding-dino-cvpr2024,
  title={Grounding DINO: Marrying DINO with Grounded Pre-training for Open-Set Object Detection},
  author={Liu, Shilong and Li, Feng and Zhang, Hao and others},
  booktitle={CVPR},
  year={2024}
}

链接: https://arxiv.org/abs/2303.05499

4. MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

@inproceedings{mdetr-iccv2021,
  title={MDETR: Modulated Detection for End-to-End Multi-Modal Understanding},
  author={Kamath, Aishwarya and Singh, Mannat and LeCun, Yann and others},
  booktitle={ICCV},
  year={2021}
}

链接: https://arxiv.org/abs/2104.12763

5. CLIP: Learning Transferable Visual Models From Natural Language

@inproceedings{clip-pmlr2021,
  title={CLIP: Learning Transferable Visual Models From Natural Language},
  author={Radford, Alec and Kim, Jong Wook and Hallacy, Chris and others},
  booktitle={ICML},
  year={2021}
}

链接: https://arxiv.org/abs/2103.00020

基础检测论文

8. YOLOv8

@article{yolov8-2023,
  title={YOLOv8: A State-of-the-Art Object Detection Model},
  author={Ultralytics},
  year={2023},
  institution={Ultralytics}
}

9. DINO: DETR with Improved DeNoising Anchor Boxes

@inproceedings{dino-iclr2022,
  title={DINO: DETR with Improved DeNoising Anchor Boxes},
  author={Zhang, Haiyang and Li, Feng and others},
  booktitle={ICLR},
  year={2022}
}

10. SAM: Segment Anything Model

@article{sam-2023,
  title={Segment Anything Model},
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and others},
  booktitle={ICCV},
  year={2023}
}

链接: https://arxiv.org/abs/2304.02643

附录

A. 术语表

术语	英文	定义
开放词汇检测	Open-Vocabulary Detection	能检测任意文本描述类别的目标检测
零样本学习	Zero-Shot Learning	识别从未见过的类别
视觉-语言对齐	Vision-Language Alignment	图像和文本特征的对齐
提示编码	Prompt Encoding	将文本提示转换为模型可处理的格式
区域-文本对比	Region-Text Contrastive	图像区域与文本嵌入的对比学习

B. 数据集

数据集	类别数	特点
COCO	80	标准检测数据集
LVIS	1203	大规模词汇，含有大量长尾类别
Objects365	365	中等规模检测数据集
OpenImages	600	超大规模，开放词汇友好

C. 代码资源

资源	链接
Ultralytics YOLO	https://github.com/ultralytics/ultralytics
YOLO-World 官方	https://github.com/AILab-CVC/YOLO-World
YOLOE	https://github.com/THU-MIG/yoloe
GLIP	https://github.com/microsoft/GLIP

文档版本: 2025年3月
作者: 基于 Ultralytics YOLO 项目代码分析

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合

全球具身智能开发者社区

所有评论(0)

查看更多评论

肆十二

@ECHOSON

已为社区贡献2条内容

实时开放词汇目标检测研究综述

肆十二

实时开放词汇目标检测研究综述

目录

一、研究背景与问题定义

1.1 传统目标检测的局限性

1.2 开放词汇目标检测的定义

1.3 研究发展历程

二、开放词汇目标检测与传统目标检测的区别

2.1 核心区别对比

2.2 技术架构差异

传统目标检测架构

开放词汇目标检测架构

2.3 检测流程对比

三、开放词汇目标检测的优势

3.1 核心优势

✅ 1. 零样本检测能力

✅ 2. 灵活的类别扩展

✅ 3. 多模态理解能力

✅ 4. 更好的泛化性

3.2 与传统方法的性能对比

速度对比

精度对比（LVIS 数据集）

四、核心技术方法

4.1 视觉-语言预训练

CLIP（Contrastive Language-Image Pre-training）

损失函数

4.2 区域-文本对齐

区域-文本对比学习

4.3 提示编码器（Prompt Encoder）

文本提示处理

4.4 离线词汇表策略

YOLO-World 的"提示-然后检测"

五、主流模型架构

5.1 GLIP（Grounded Language-Image Pre-training）

论文信息

核心架构

创新点

5.2 Grounding DINO

论文信息

核心架构

关键创新

5.3 YOLO-World

论文信息

核心架构

5.4 YOLOE（清华团队）

论文信息

核心改进

技术创新

六、最新研究进展

6.1 2024-2025 年重要进展

1. YOLO-Worldv2

2. YOLOE

3. YOLO-IOD

4. 多模态大模型融合

6.2 技术发展路线

七、国内外研究现状

7.1 国际研究

代表团队与成果

重要论文列表

7.2 国内研究

代表团队与成果

YOLOE（清华大学）详解

7.3 工业应用现状

商业产品

开源生态

八、未来发展方向

8.1 当前研究热点

1. 多模态大模型融合

2. 端到端开放词汇检测

3. 增量式开放词汇检测

8.2 技术挑战

8.3 应用前景

九、参考文献

经典论文

1. YOLO-World: Real-Time Open-Vocabulary Object Detection

2. GLIP: Grounded Language-Image Pre-training

3. Grounding DINO: Marrying DINO with Grounded Pre-training

4. MDETR: Modulated Detection for End-to-End Multi-Modal Understanding

5. CLIP: Learning Transferable Visual Models From Natural Language