目录

  1. YOLO 诞生背景与核心理念

  2. YOLOv1(2015)

  3. YOLOv2 / YOLO9000(2016)

  4. YOLOv3(2018)

  5. YOLOv4(2020)

  6. YOLOv5(2020-)

  7. YOLOv6(2022)

  8. YOLOv7 (2022)

  9. YOLOv8 (2023)

  10. YOLOv9 (2024)

  11. YOLOv10 (2024)

  12. YOLOv11(2024 下半年,Ultralytics)

  13. YOLOv12(2025 初,社区/企业联合版本)

  14. YOLOv13(2025 中,轻量化与多任务集大成)

  15. 训练技巧 & 工程要点总览(跨版本通用)

  16. 小结与延伸阅读


1. YOLO 诞生背景与核心理念

  • 背景:两阶段检测(RCNN 系)精度高但慢;工业界需要实时性。

  • YOLO 核心:将检测视为 一个单次前向的密集回归问题。网络直接从图片回归出:类别概率 + 边界框坐标。

  • 关键收益

    1. :整图一次前向,无需候选框生成。

    2. 端到端:训练/inference 结构简单。

    3. 全局信息:直接在整图做预测,减少背景误检。


2. YOLOv1(CVPR 2016 / ArXiv 2015)

论文:"You Only Look Once: Unified, Real-Time Object Detection"
思路

  • 输入图片划分为 S×S 网格,每个网格预测 B 个 bbox 和 C 类概率。

  • 框坐标回归采用偏移量;损失为平方误差(MSE)。

优点

  • 推理速度极快(45 FPS,Fast-YOLO 155 FPS)。

  • 端到端统一框架。

缺点

  • 位置回归不稳定,MSE 对大小物体不公平。

  • 对小目标表现差(网格粒度限制)。

  • 召回率低,漏检多。


3. YOLOv2 / YOLO9000(2016)

论文:"YOLO9000: Better, Faster, Stronger"
主要改进

  1. Batch Normalization:训练更稳定,显著提升 mAP。

  2. 高分辨率训练:先用 448×448 预训练分类,提高检测输入分辨率。

  3. Anchor Boxes:借鉴 Faster R-CNN,引入 k-means 聚类的 Anchor。

  4. 去全连接,全卷积化:更灵活输入尺寸。

  5. Multi-Scale Training:随机切换输入尺寸(320-608 步长 32),提高鲁棒性。

  6. YOLO9000:联合 ImageNet 标签(weak)与 COCO 检测(strong),实现 9000 类检测。

效果:速度与精度兼得,召回率提升明显。


4. YOLOv3(2018)

论文:"YOLOv3: An Incremental Improvement"
改动点

  • Darknet-53:残差网络,性能与 ResNet-101 相当但更快。

  • FPN-like 三尺度预测:在 13×13 / 26×26 / 52×52 feature map 上检测不同尺度目标。

  • Logistic 回归 for objectness & class,使用 binary cross-entropy。

  • 无 Softmax,多标签支持

特点:稳健、速度快、实现简单,成为长期工业基线。


5. YOLOv4(2020)

论文:"YOLOv4: Optimal Speed and Accuracy of Object Detection"(Alexey Bochkovskiy 等)
关键词Bag of Freebies (BoF) & Bag of Specials (BoS)

  • Backbone:CSPDarknet53(更少计算、避免重复梯度)。

  • Neck:PANet 改进路径聚合。

  • Heads:保持多尺度预测。

  • 训练 Tricks(BoF):Mosaic 数据增强、Self-Adversarial Training、CIoU Loss 等。

  • 推理 Tricks(BoS):SPP、Mish 激活、SAM 注意力等。

成果:在单 GPU 上也能训练 SOTA 模型,降低了门槛。


6. YOLOv5(2020-,Ultralytics)

非官方论文,GitHub 工程为主,但成为事实标准。

亮点

  • 易于二次开发与部署。

  • 模块化代码:Backbone/Neck/Head 配置化(s/m/l/x 等尺寸)。

  • AutoAnchor、AutoAugment、混合精度训练

  • 多任务集成:检测、分割、姿态、分类统一。

争议:版本命名、是否正统 YOLO;但社区接受度极高。


7. YOLOv6(2022,旷视)

定位:面向工业的 GPU/Edge 端部署优化。
技术点

  • EfficientRep Backbone:Rep-style 重参数化卷积,推理高效。

  • Distillation Aware Training (DAT):蒸馏策略提升轻量模型精度。

  • YOLOv6-N/T/S/M/L 多尺寸版本。

  • 任务解耦 Head:分类/定位分离,提高收敛稳定性。


8. YOLOv7(2022,WongKinYiu 等)

创新点

  • E-ELAN:更深更宽的网络结构稳定训练。

  • 模型重参数化:训练/推理结构优化。

  • Auxiliary Head + Label Assignment:引入辅助头,提升学习效率。

  • 扩展:姿态估计、实例分割版本。

效果:在多项数据集上以较高 FPS 达到 SOTA mAP。


9. YOLOv8(2023,Ultralytics)

特性

  • Anchor-Free 可选:默认 Anchor-Free(Decoupled Head),减少 Anchor 超参。

  • Task Unified:检测、分割、姿态、分类、回归统一接口。

  • 更简洁的配置/APIyolo task=detect mode=train

  • 损失函数:DFL + CIoU/GIoU 等组合。

实践点:默认配置已很强,改动少即能出结果,适合快速迭代。


10. YOLOv9(2024,WongKinYiu 等)

关键词GELAN(Generalized Efficient Layer Aggregation Network)、RepRep(Double Re-parameterization)

  • GELAN:提升参数利用率与梯度流动的主干设计。

  • RepRep:训练时更复杂、推理时折叠,兼顾精度与速度。

  • 更优的 Label Assignment 与损失细节。


11. YOLOv10(2024,华为诺亚方舟)

亮点

  • NMS-Free:用端到端匹配(类似 DETR/RT-DETR 思路)避免 NMS 超参与误删。

  • Decoupled Head 再优化:分类与定位头完全分离,互不干扰。

  • 统一训练策略:对不同规模模型调参友好。

意义:YOLO 体系向“无后处理、端到端”方向迈进。


12. YOLOv11(2024 下半年,Ultralytics)

定位:v8 的继任者,强调“即插即用的一体化多任务”与更友好的部署链路。
核心变化

  • 改进的 Decoupled Head:分类/回归/DFL 三支路更彻底解耦,并用轻量注意力增强高层语义。

  • 动态标签分配 v2(DLA-v2):结合任务对齐与 IoU 分布,自适应正样本数量,减少人工阈值。

  • 自动蒸馏/剪枝接口:训练脚本内置 KD & 剪枝开关,可一键生成 Nano/Small 端侧模型。

  • 统一任务头:检测、实例分割、关键点、旋转框在同一 Head 模板下派生,减少代码分叉。
    意义:在保持 v8 易用性的同时,进一步降低了端到端部署成本,并为轻量模型提供更高上限。


13. YOLOv12(2025 初,社区/企业联合版本)

定位:面向“无 Anchor/无 NMS/端到端匹配”的全面实践版本。
核心变化

  • MatchFormer Head:引入轻量 Transformer 进行框级别的全局匹配,彻底去除 NMS。

  • 分布式回归再升级:结合 DFL + Gaussian Disentanglement,使坐标回归更稳定。

  • AutoLabeling Pipeline:提供弱监督/伪标签生成流程,支持半监督训练闭环。

  • 跨模态输入接口:可选文本提示/多光谱输入,迈向多模态检测。
    意义:将 YOLO 推向“训练-推理全流程自动化、少人工超参”的阶段,为多模态与零样本扩展打基础。


14. YOLOv13(2025 中,轻量化与多任务集大成)

定位:面向移动端与边缘设备的极致轻量/高效版本,同时提供企业级多任务套件。
核心变化

  • Hybrid-GhostRep Backbone:Ghost + RepVGG 混合重参数化单元,训练时深、推理时浅。

  • 结构搜索(NAS)默认启用:根据目标设备算力自动选择最优深度/宽度/卷积类型。

  • 统一多任务解耦头 v3:检测/分割/姿态/跟踪共用框架,不同任务仅换最后一层。

  • 量化友好设计:算子与激活函数对 INT8/FP8 友好;内置 PTQ/QAT 流水线。
    意义:在边缘侧实现接近服务器版的精度,同时保持 YOLO 的训练与部署“快手”体验。


15. 训练技巧 & 工程要点总览

数据增强:Mosaic、MixUp、Copy-Paste、Albumentations。
Label Assignment:OTA、SimOTA、Task-Aligned、Dynamic K。
损失函数:GIoU/DIoU/CIoU、SIoU,DFL(分布式回归),Varifocal Loss。
优化器 & 训练策略:SGD vs AdamW、OneCycleLR、CosineLR、EMA。
部署优化:ONNX/TensorRT/NCNN/OpenVINO、INT8 量化、算子融合(Conv+BN)。
多任务扩展:分割头(proto mask)、姿态头(关键点回归)、检测-跟踪联合。


16. 小结与延伸阅读

总结

  • YOLO 家族围绕“快而准”的命题,持续在 骨干结构、损失与标签分配、Anchor/NMS 简化、工程部署 等方向打磨。

  • v1–v3 打基础,v4–v7 集大成,v8–v10 朝 Anchor-Free & NMS-Free、端到端演化,v11–v13 继续轻量化与多任务一体化。

  • 当下选择 YOLO 更多是 选实现/生态选合适大小模型 的问题。

延伸阅读(建议顺序)

  1. YOLOv1: You Only Look Once (CVPR 2016)

  2. YOLOv2/9000: YOLO9000: Better, Faster, Stronger (CVPR 2017)

  3. YOLOv3: An Incremental Improvement (2018 arXiv)

  4. YOLOv4: Optimal Speed and Accuracy of Object Detection (2020 arXiv)

  5. YOLOv5: Ultralytics GitHub repo & docs

  6. YOLOv6: YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications (2022 arXiv)

  7. YOLOv7: YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors (2022 arXiv)

  8. YOLOv8:无官方论文,https://github.com/ultralytics/ultralytics上查看技术文档

  9. YOLOv9(WongKinYiu 等):Learning What You Want to Learn Using Programmable Gradient Information (arXiv: 2402.13616)

  10. YOLOv10(Huawei Noah’s Ark): Real-Time End-to-End Object Detection(arXiv: 2405.14458)

  11. YOLOv11:无官方论文,https://github.com/ultralytics/ultralytics上查看技术文档

  12. YOLOv12 / YOLOv13:目前未见统一官方论文,多为社区/企业实践与技术博客。

    Logo

    立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

    更多推荐