目标检测三:YOLO 系列纵览(v1–v13)
yolo系列:从yolov1到yolov13。
目录
-
YOLO 诞生背景与核心理念
-
YOLOv1(2015)
-
YOLOv2 / YOLO9000(2016)
-
YOLOv3(2018)
-
YOLOv4(2020)
-
YOLOv5(2020-)
-
YOLOv6(2022)
-
YOLOv7 (2022)
-
YOLOv8 (2023)
-
YOLOv9 (2024)
-
YOLOv10 (2024)
-
YOLOv11(2024 下半年,Ultralytics)
-
YOLOv12(2025 初,社区/企业联合版本)
-
YOLOv13(2025 中,轻量化与多任务集大成)
-
训练技巧 & 工程要点总览(跨版本通用)
-
小结与延伸阅读
1. YOLO 诞生背景与核心理念
-
背景:两阶段检测(RCNN 系)精度高但慢;工业界需要实时性。
-
YOLO 核心:将检测视为 一个单次前向的密集回归问题。网络直接从图片回归出:类别概率 + 边界框坐标。
-
关键收益:
-
快:整图一次前向,无需候选框生成。
-
端到端:训练/inference 结构简单。
-
全局信息:直接在整图做预测,减少背景误检。
-
2. YOLOv1(CVPR 2016 / ArXiv 2015)
论文:"You Only Look Once: Unified, Real-Time Object Detection"
思路:
-
输入图片划分为 S×S 网格,每个网格预测 B 个 bbox 和 C 类概率。
-
框坐标回归采用偏移量;损失为平方误差(MSE)。
优点:
-
推理速度极快(45 FPS,Fast-YOLO 155 FPS)。
-
端到端统一框架。
缺点:
-
位置回归不稳定,MSE 对大小物体不公平。
-
对小目标表现差(网格粒度限制)。
-
召回率低,漏检多。
3. YOLOv2 / YOLO9000(2016)
论文:"YOLO9000: Better, Faster, Stronger"
主要改进:
-
Batch Normalization:训练更稳定,显著提升 mAP。
-
高分辨率训练:先用 448×448 预训练分类,提高检测输入分辨率。
-
Anchor Boxes:借鉴 Faster R-CNN,引入 k-means 聚类的 Anchor。
-
去全连接,全卷积化:更灵活输入尺寸。
-
Multi-Scale Training:随机切换输入尺寸(320-608 步长 32),提高鲁棒性。
-
YOLO9000:联合 ImageNet 标签(weak)与 COCO 检测(strong),实现 9000 类检测。
效果:速度与精度兼得,召回率提升明显。
4. YOLOv3(2018)
论文:"YOLOv3: An Incremental Improvement"
改动点:
-
Darknet-53:残差网络,性能与 ResNet-101 相当但更快。
-
FPN-like 三尺度预测:在 13×13 / 26×26 / 52×52 feature map 上检测不同尺度目标。
-
Logistic 回归 for objectness & class,使用 binary cross-entropy。
-
无 Softmax,多标签支持。
特点:稳健、速度快、实现简单,成为长期工业基线。
5. YOLOv4(2020)
论文:"YOLOv4: Optimal Speed and Accuracy of Object Detection"(Alexey Bochkovskiy 等)
关键词:Bag of Freebies (BoF) & Bag of Specials (BoS)
-
Backbone:CSPDarknet53(更少计算、避免重复梯度)。
-
Neck:PANet 改进路径聚合。
-
Heads:保持多尺度预测。
-
训练 Tricks(BoF):Mosaic 数据增强、Self-Adversarial Training、CIoU Loss 等。
-
推理 Tricks(BoS):SPP、Mish 激活、SAM 注意力等。
成果:在单 GPU 上也能训练 SOTA 模型,降低了门槛。
6. YOLOv5(2020-,Ultralytics)
非官方论文,GitHub 工程为主,但成为事实标准。
亮点:
-
易于二次开发与部署。
-
模块化代码:Backbone/Neck/Head 配置化(s/m/l/x 等尺寸)。
-
AutoAnchor、AutoAugment、混合精度训练。
-
多任务集成:检测、分割、姿态、分类统一。
争议:版本命名、是否正统 YOLO;但社区接受度极高。
7. YOLOv6(2022,旷视)
定位:面向工业的 GPU/Edge 端部署优化。
技术点:
-
EfficientRep Backbone:Rep-style 重参数化卷积,推理高效。
-
Distillation Aware Training (DAT):蒸馏策略提升轻量模型精度。
-
YOLOv6-N/T/S/M/L 多尺寸版本。
-
任务解耦 Head:分类/定位分离,提高收敛稳定性。
8. YOLOv7(2022,WongKinYiu 等)
创新点:
-
E-ELAN:更深更宽的网络结构稳定训练。
-
模型重参数化:训练/推理结构优化。
-
Auxiliary Head + Label Assignment:引入辅助头,提升学习效率。
-
扩展:姿态估计、实例分割版本。
效果:在多项数据集上以较高 FPS 达到 SOTA mAP。
9. YOLOv8(2023,Ultralytics)
特性:
-
Anchor-Free 可选:默认 Anchor-Free(Decoupled Head),减少 Anchor 超参。
-
Task Unified:检测、分割、姿态、分类、回归统一接口。
-
更简洁的配置/API:
yolo task=detect mode=train。 -
损失函数:DFL + CIoU/GIoU 等组合。
实践点:默认配置已很强,改动少即能出结果,适合快速迭代。
10. YOLOv9(2024,WongKinYiu 等)
关键词:GELAN(Generalized Efficient Layer Aggregation Network)、RepRep(Double Re-parameterization)
-
GELAN:提升参数利用率与梯度流动的主干设计。
-
RepRep:训练时更复杂、推理时折叠,兼顾精度与速度。
-
更优的 Label Assignment 与损失细节。
11. YOLOv10(2024,华为诺亚方舟)
亮点:
-
NMS-Free:用端到端匹配(类似 DETR/RT-DETR 思路)避免 NMS 超参与误删。
-
Decoupled Head 再优化:分类与定位头完全分离,互不干扰。
-
统一训练策略:对不同规模模型调参友好。
意义:YOLO 体系向“无后处理、端到端”方向迈进。
12. YOLOv11(2024 下半年,Ultralytics)
定位:v8 的继任者,强调“即插即用的一体化多任务”与更友好的部署链路。
核心变化:
-
改进的 Decoupled Head:分类/回归/DFL 三支路更彻底解耦,并用轻量注意力增强高层语义。
-
动态标签分配 v2(DLA-v2):结合任务对齐与 IoU 分布,自适应正样本数量,减少人工阈值。
-
自动蒸馏/剪枝接口:训练脚本内置 KD & 剪枝开关,可一键生成 Nano/Small 端侧模型。
-
统一任务头:检测、实例分割、关键点、旋转框在同一 Head 模板下派生,减少代码分叉。
意义:在保持 v8 易用性的同时,进一步降低了端到端部署成本,并为轻量模型提供更高上限。
13. YOLOv12(2025 初,社区/企业联合版本)
定位:面向“无 Anchor/无 NMS/端到端匹配”的全面实践版本。
核心变化:
-
MatchFormer Head:引入轻量 Transformer 进行框级别的全局匹配,彻底去除 NMS。
-
分布式回归再升级:结合 DFL + Gaussian Disentanglement,使坐标回归更稳定。
-
AutoLabeling Pipeline:提供弱监督/伪标签生成流程,支持半监督训练闭环。
-
跨模态输入接口:可选文本提示/多光谱输入,迈向多模态检测。
意义:将 YOLO 推向“训练-推理全流程自动化、少人工超参”的阶段,为多模态与零样本扩展打基础。
14. YOLOv13(2025 中,轻量化与多任务集大成)
定位:面向移动端与边缘设备的极致轻量/高效版本,同时提供企业级多任务套件。
核心变化:
-
Hybrid-GhostRep Backbone:Ghost + RepVGG 混合重参数化单元,训练时深、推理时浅。
-
结构搜索(NAS)默认启用:根据目标设备算力自动选择最优深度/宽度/卷积类型。
-
统一多任务解耦头 v3:检测/分割/姿态/跟踪共用框架,不同任务仅换最后一层。
-
量化友好设计:算子与激活函数对 INT8/FP8 友好;内置 PTQ/QAT 流水线。
意义:在边缘侧实现接近服务器版的精度,同时保持 YOLO 的训练与部署“快手”体验。
15. 训练技巧 & 工程要点总览
数据增强:Mosaic、MixUp、Copy-Paste、Albumentations。
Label Assignment:OTA、SimOTA、Task-Aligned、Dynamic K。
损失函数:GIoU/DIoU/CIoU、SIoU,DFL(分布式回归),Varifocal Loss。
优化器 & 训练策略:SGD vs AdamW、OneCycleLR、CosineLR、EMA。
部署优化:ONNX/TensorRT/NCNN/OpenVINO、INT8 量化、算子融合(Conv+BN)。
多任务扩展:分割头(proto mask)、姿态头(关键点回归)、检测-跟踪联合。
16. 小结与延伸阅读
总结:
-
YOLO 家族围绕“快而准”的命题,持续在 骨干结构、损失与标签分配、Anchor/NMS 简化、工程部署 等方向打磨。
-
v1–v3 打基础,v4–v7 集大成,v8–v10 朝 Anchor-Free & NMS-Free、端到端演化,v11–v13 继续轻量化与多任务一体化。
-
当下选择 YOLO 更多是 选实现/生态 与 选合适大小模型 的问题。
延伸阅读(建议顺序):
-
YOLOv1: You Only Look Once (CVPR 2016)
-
YOLOv2/9000: YOLO9000: Better, Faster, Stronger (CVPR 2017)
-
YOLOv3: An Incremental Improvement (2018 arXiv)
-
YOLOv4: Optimal Speed and Accuracy of Object Detection (2020 arXiv)
-
YOLOv5: Ultralytics GitHub repo & docs
-
YOLOv6: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications (2022 arXiv)
-
YOLOv7: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (2022 arXiv)
-
YOLOv8:无官方论文,
https://github.com/ultralytics/ultralytics上查看技术文档 -
YOLOv9(WongKinYiu 等):Learning What You Want to Learn Using Programmable Gradient Information (arXiv: 2402.13616)
-
YOLOv10(Huawei Noah’s Ark): Real-Time End-to-End Object Detection(arXiv: 2405.14458)
-
YOLOv11:无官方论文,
https://github.com/ultralytics/ultralytics上查看技术文档 -
YOLOv12 / YOLOv13:目前未见统一官方论文,多为社区/企业实践与技术博客。
更多推荐


所有评论(0)