目标检测三：YOLO 系列纵览（v1–v13）

yolo系列：从yolov1到yolov13。

远上寒山

1514人浏览 · 2025-07-11 13:31:08

远上寒山 · 2025-07-11 13:31:08 发布

YOLO 诞生背景与核心理念
YOLOv1（2015）
YOLOv2 / YOLO9000（2016）
YOLOv3（2018）
YOLOv4（2020）
YOLOv5（2020-）
YOLOv6（2022）
YOLOv7 (2022)
YOLOv8 (2023)
YOLOv9 (2024)
YOLOv10 (2024)
YOLOv11（2024 下半年，Ultralytics）
YOLOv12（2025 初，社区/企业联合版本）
YOLOv13（2025 中，轻量化与多任务集大成）
训练技巧 & 工程要点总览（跨版本通用）
小结与延伸阅读

1. YOLO 诞生背景与核心理念

背景：两阶段检测（RCNN 系）精度高但慢；工业界需要实时性。
YOLO 核心：将检测视为 一个单次前向的密集回归问题。网络直接从图片回归出：类别概率 + 边界框坐标。
关键收益：
1. 快：整图一次前向，无需候选框生成。
2. 端到端：训练/inference 结构简单。
3. 全局信息：直接在整图做预测，减少背景误检。

2. YOLOv1（CVPR 2016 / ArXiv 2015）

论文："You Only Look Once: Unified, Real-Time Object Detection"
思路：

输入图片划分为 S×S 网格，每个网格预测 B 个 bbox 和 C 类概率。
框坐标回归采用偏移量；损失为平方误差（MSE）。

优点：

推理速度极快（45 FPS，Fast-YOLO 155 FPS）。
端到端统一框架。

缺点：

位置回归不稳定，MSE 对大小物体不公平。
对小目标表现差（网格粒度限制）。
召回率低，漏检多。

3. YOLOv2 / YOLO9000（2016）

论文："YOLO9000: Better, Faster, Stronger"
主要改进：

Batch Normalization：训练更稳定，显著提升 mAP。
高分辨率训练：先用 448×448 预训练分类，提高检测输入分辨率。
Anchor Boxes：借鉴 Faster R-CNN，引入 k-means 聚类的 Anchor。
去全连接，全卷积化：更灵活输入尺寸。
Multi-Scale Training：随机切换输入尺寸（320-608 步长 32），提高鲁棒性。
YOLO9000：联合 ImageNet 标签（weak）与 COCO 检测（strong），实现 9000 类检测。

效果：速度与精度兼得，召回率提升明显。

4. YOLOv3（2018）

论文："YOLOv3: An Incremental Improvement"
改动点：

Darknet-53：残差网络，性能与 ResNet-101 相当但更快。
FPN-like 三尺度预测：在 13×13 / 26×26 / 52×52 feature map 上检测不同尺度目标。
Logistic 回归 for objectness & class，使用 binary cross-entropy。
无 Softmax，多标签支持。

特点：稳健、速度快、实现简单，成为长期工业基线。

5. YOLOv4（2020）

论文："YOLOv4: Optimal Speed and Accuracy of Object Detection"（Alexey Bochkovskiy 等）
关键词：Bag of Freebies (BoF) & Bag of Specials (BoS)

Backbone：CSPDarknet53（更少计算、避免重复梯度）。
Neck：PANet 改进路径聚合。
Heads：保持多尺度预测。
训练 Tricks（BoF）：Mosaic 数据增强、Self-Adversarial Training、CIoU Loss 等。
推理 Tricks（BoS）：SPP、Mish 激活、SAM 注意力等。

成果：在单 GPU 上也能训练 SOTA 模型，降低了门槛。

6. YOLOv5（2020-，Ultralytics）

非官方论文，GitHub 工程为主，但成为事实标准。

亮点：

易于二次开发与部署。
模块化代码：Backbone/Neck/Head 配置化（s/m/l/x 等尺寸）。
AutoAnchor、AutoAugment、混合精度训练。
多任务集成：检测、分割、姿态、分类统一。

争议：版本命名、是否正统 YOLO；但社区接受度极高。

7. YOLOv6（2022，旷视）

定位：面向工业的 GPU/Edge 端部署优化。
技术点：

EfficientRep Backbone：Rep-style 重参数化卷积，推理高效。
Distillation Aware Training (DAT)：蒸馏策略提升轻量模型精度。
YOLOv6-N/T/S/M/L 多尺寸版本。
任务解耦 Head：分类/定位分离，提高收敛稳定性。

8. YOLOv7（2022，WongKinYiu 等）

创新点：

E-ELAN：更深更宽的网络结构稳定训练。
模型重参数化：训练/推理结构优化。
Auxiliary Head + Label Assignment：引入辅助头，提升学习效率。
扩展：姿态估计、实例分割版本。

效果：在多项数据集上以较高 FPS 达到 SOTA mAP。

9. YOLOv8（2023，Ultralytics）

特性：

Anchor-Free 可选：默认 Anchor-Free（Decoupled Head），减少 Anchor 超参。
Task Unified：检测、分割、姿态、分类、回归统一接口。
更简洁的配置/API：yolo task=detect mode=train。
损失函数：DFL + CIoU/GIoU 等组合。

实践点：默认配置已很强，改动少即能出结果，适合快速迭代。

10. YOLOv9（2024，WongKinYiu 等）

关键词：GELAN（Generalized Efficient Layer Aggregation Network）、RepRep（Double Re-parameterization）

GELAN：提升参数利用率与梯度流动的主干设计。
RepRep：训练时更复杂、推理时折叠，兼顾精度与速度。
更优的 Label Assignment 与损失细节。

11. YOLOv10（2024，华为诺亚方舟）

亮点：

NMS-Free：用端到端匹配（类似 DETR/RT-DETR 思路）避免 NMS 超参与误删。
Decoupled Head 再优化：分类与定位头完全分离，互不干扰。
统一训练策略：对不同规模模型调参友好。

意义：YOLO 体系向“无后处理、端到端”方向迈进。

12. YOLOv11（2024 下半年，Ultralytics）

定位：v8 的继任者，强调“即插即用的一体化多任务”与更友好的部署链路。
核心变化：

改进的 Decoupled Head：分类/回归/DFL 三支路更彻底解耦，并用轻量注意力增强高层语义。
动态标签分配 v2（DLA-v2）：结合任务对齐与 IoU 分布，自适应正样本数量，减少人工阈值。
自动蒸馏/剪枝接口：训练脚本内置 KD & 剪枝开关，可一键生成 Nano/Small 端侧模型。
统一任务头：检测、实例分割、关键点、旋转框在同一 Head 模板下派生，减少代码分叉。
意义：在保持 v8 易用性的同时，进一步降低了端到端部署成本，并为轻量模型提供更高上限。

13. YOLOv12（2025 初，社区/企业联合版本）

定位：面向“无 Anchor/无 NMS/端到端匹配”的全面实践版本。
核心变化：

MatchFormer Head：引入轻量 Transformer 进行框级别的全局匹配，彻底去除 NMS。
分布式回归再升级：结合 DFL + Gaussian Disentanglement，使坐标回归更稳定。
AutoLabeling Pipeline：提供弱监督/伪标签生成流程，支持半监督训练闭环。
跨模态输入接口：可选文本提示/多光谱输入，迈向多模态检测。
意义：将 YOLO 推向“训练-推理全流程自动化、少人工超参”的阶段，为多模态与零样本扩展打基础。

14. YOLOv13（2025 中，轻量化与多任务集大成）

定位：面向移动端与边缘设备的极致轻量/高效版本，同时提供企业级多任务套件。
核心变化：

Hybrid-GhostRep Backbone：Ghost + RepVGG 混合重参数化单元，训练时深、推理时浅。
结构搜索（NAS）默认启用：根据目标设备算力自动选择最优深度/宽度/卷积类型。
统一多任务解耦头 v3：检测/分割/姿态/跟踪共用框架，不同任务仅换最后一层。
量化友好设计：算子与激活函数对 INT8/FP8 友好；内置 PTQ/QAT 流水线。
意义：在边缘侧实现接近服务器版的精度，同时保持 YOLO 的训练与部署“快手”体验。

15. 训练技巧 & 工程要点总览

数据增强：Mosaic、MixUp、Copy-Paste、Albumentations。
Label Assignment：OTA、SimOTA、Task-Aligned、Dynamic K。
损失函数：GIoU/DIoU/CIoU、SIoU，DFL（分布式回归），Varifocal Loss。
优化器 & 训练策略：SGD vs AdamW、OneCycleLR、CosineLR、EMA。
部署优化：ONNX/TensorRT/NCNN/OpenVINO、INT8 量化、算子融合（Conv+BN）。
多任务扩展：分割头（proto mask）、姿态头（关键点回归）、检测-跟踪联合。

16. 小结与延伸阅读

总结：

YOLO 家族围绕“快而准”的命题，持续在 骨干结构、损失与标签分配、Anchor/NMS 简化、工程部署 等方向打磨。
v1–v3 打基础，v4–v7 集大成，v8–v10 朝 Anchor-Free & NMS-Free、端到端演化，v11–v13 继续轻量化与多任务一体化。
当下选择 YOLO 更多是 选实现/生态 与 选合适大小模型 的问题。

延伸阅读（建议顺序）：

YOLOv1: You Only Look Once (CVPR 2016)
YOLOv2/9000: YOLO9000: Better, Faster, Stronger (CVPR 2017)
YOLOv3: An Incremental Improvement (2018 arXiv)
YOLOv4: Optimal Speed and Accuracy of Object Detection (2020 arXiv)
YOLOv5: Ultralytics GitHub repo & docs
YOLOv6: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications (2022 arXiv)
YOLOv7: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (2022 arXiv)
YOLOv8：无官方论文，https://github.com/ultralytics/ultralytics上查看技术文档
YOLOv9（WongKinYiu 等）：Learning What You Want to Learn Using Programmable Gradient Information (arXiv: 2402.13616)
YOLOv10（Huawei Noah’s Ark）： Real-Time End-to-End Object Detection(arXiv: 2405.14458)
YOLOv11：无官方论文，https://github.com/ultralytics/ultralytics上查看技术文档
YOLOv12 / YOLOv13：目前未见统一官方论文，多为社区/企业实践与技术博客。

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合