【2026 DroneScan-YOLO：用于无人机图像中小目标检测的冗余感知轻量化检测】

论文摘要本文提出DroneScan-YOLO，一种针对无人机图像中小目标检测的轻量化解决方案。针对VisDrone2019-DET数据集中68%的小目标（<32×32像素）检测难题，该方法通过四个关键创新实现突破：1）将输入分辨率提升至1280×1280以增强小目标细节；2）设计RPA-Block动态修剪冗余滤波器；3）引入轻量级MSFD分支（仅增加1.1%参数）实现步幅4的精细检测；4）

guo_xiao_xiao_

632人浏览 · 2026-04-20 22:21:19

guo_xiao_xiao_ · 2026-04-20 22:21:19 发布

DroneScan-YOLO：用于无人机图像中小目标检测的冗余感知轻量化检测论文解读

论文基本信息

英文标题： DroneScan-YOLO: Redundancy-Aware Lightweight Detection for Tiny Objects in UAV Imagery

中文标题： DroneScan-YOLO：用于无人机图像中小目标检测的冗余感知轻量化检测

arXiv链接： https://arxiv.org/abs/2604.13278

代码链接： https://github.com/yannbellec/dronescan-yolo

提交日期： 2026年4月14日

论文状态： 12页，10张图表

1. 摘要分析

核心研究问题

无人机(UAV)图像中的空中目标检测面临着独特的挑战，主要包括三个相互关联的问题：小目标的高普遍性、恶劣的环境条件以及严格的计算约束。在VisDrone2019-DET数据集中，68%的标注实例占用少于32×32像素。标准基于YOLO的检测器无法同时解决这些问题：它们的最小检测步幅为8像素，使得子32像素对象几乎无法检测；它们的CIoU损失对非重叠的小边界框产生零梯度；它们的架构包含显著的滤波器冗余。

核心方法

论文提出了DroneScan-YOLO，这是一个通过四个协调的设计选择来解决这些限制的整体系统贡献：

增强的输入分辨率：提高到1280×1280，最大化小目标的空间细节
RPA-Block：基于懒惰余弦相似度更新的动态滤波器修剪机制，具有10个epoch的预热期
MSFD：轻量级P2检测分支，步幅为4，仅增加114,592个参数(+1.1%)
SAL-NWD：混合损失，将标准化Wasserstein距离与大小自适应CIoU权重结合，集成到YOLOv8的TaskAligned分配管道中

主要贡献

在VisDrone2019-DET上评估，DroneScan-YOLO实现了55.3% mAP@50和35.6% mAP@50-95，分别超过YOLOv8s基准+16.6和+12.3点，召回率从0.374提高到0.518，仅增加+4.1%参数同时保持96.7 FPS推理速度。在小目标类别上的提升最为显著：bicycle AP@50从0.114提高到0.328(+187%)，awning-tricycle从0.156提高到0.237(+52%)。

2. 研究现状

2.1 无人机图像检测的发展

传统方法的局限： 无人机和无人驾驶飞行器在行业中的使用越来越广泛，包括监控、交通监控、搜索救援、农业检查和边境安全。从无人机摄像头进行实时目标检测的性能是这些应用的主要问题。尽管深度学习取得了许多重大进展，但在无人机成像中仍然存在某些重要限制。

YOLO系列的演进： 目标检测通过深度学习从两阶段架构(R-CNN及其变体)发展到YOLO系列的单阶段实时检测器。YOLOv8代表了这一系列的最先进技术，具有解耦的检测头、无锚点设计和优化的CSP骨干，在COCO上以高推理速度达到竞争性能。然而，其最小检测步幅为8像素，在目标非常小的UAV场景中构成了重要限制。

2.2 现有方法的局限性

现有研究的不足： 当前文献单独解决这些问题。YOLO-LE增加了架构效率但没有改进损失。DAU-YOLO通过注意力改进特征但不解决分辨率或损失。NWD为小目标提供了鲁棒的指标但不适合协同框架。没有方法明确在可操作的基础中结合输入分辨率、多尺度检测、滤波器修剪和损失函数。

小目标检测的挑战：

步幅限制： 在640×640图像中，8×8像素目标在P3(步幅8)上产生1×1激活，导致无法捕获可利用的上下文
损失不稳定性： 基于IoU的损失函数对小边界框表现出显著的失效模式：当预测和目标框不重叠时，梯度消失
计算效率约束： 嵌入式UAV系统在功率、内存和热耗散方面有严格约束

3. 创新点

3.1 整体架构创新

系统化设计思路： DroneScan-YOLO基于YOLOv8s骨干网络(9.84M参数，640×640时23.6 GFLOPs)，并在三个额外维度进行扩展。RPA-Block在骨干提取层的第2层(64通道，P2)和第4层(128通道，P3)通过前向钩子实现。MSFD在颈部作为额外的P2检测分支实现。SAL-NWD替换v8DetectionLoss标准的BboxLoss组件。训练在1280×1280像素下进行，将特征图的空间分辨率提高了四倍，总参数开销为+400,080(+4.1%)。

3.2 增强的分辨率

创新设计： 从640×640切换到1280×1280像素是一个根本性的架构选择。在640px时，8×8像素目标在P3(步幅8)上产生1×1激活。在1280px时，同一目标在P3上产生2×2激活，在MSFD引入的新P2头(步幅4)上产生4×4激活。

可行性保障： 这种分辨率增加通过MSFD中的轻量级可分离卷积和RPA-Block减少高分辨率层的计算冗余而变得实用。

3.3 RPA-Block（冗余感知修剪块）

创新机制： 标准卷积层累积收敛到非常相似特征检测器的冗余滤波器，增加了计算成本而没有改善表示能力。RPA-Block在训练期间识别并动态抑制这些冗余滤波器。

技术实现：

对于具有权重张量W的卷积层，计算滤波器之间的余弦相似度矩阵
通过扫描相似度矩阵的上三角导出二进制掩码：对于每对(i,j)，如果Sij > θ，滤波器j被掩码
引入两个稳定化机制：(1)W=10个epoch的预热期，在此期间m=1，允许滤波器在学习修剪激活之前学习多样化表示；(2)懒惰更新每N=5个epoch重新计算m，将重新计算开销减少5×，同时达到等效的最终稀疏度

3.4 MSFD（多尺度特征蒸馏头）

问题解决： 在1280px时，8×8像素目标在P3上仅产生2×2激活，不足以进行精确的空间定位。MSFD实现在P2上以步幅4操作的专用检测分支，对于1280px输入，特征为320×320。

轻量化设计：

MSFD分支通过两个深度可分离卷积块处理P2特征(64通道)，与标准卷积相比减少FLOPs约8-9倍
挤压激励块通过全局池化、两个全连接层(缩减比r=4)和sigmoid乘法重新校准通道重要性
总成本：114,592个参数(+1.1%)

3.5 SAL-NWD损失（大小自适应标准化NWD损失）

问题识别： CIoU对非重叠的小边界框产生零梯度。SAL-NWD通过两个协同组件解决这个问题。

标准化Wasserstein距离：

每个边界框建模为二维高斯分布N(μ,Σ)
计算Wasserstein-2距离的平方
标准化NWD：NWD(a,b) = exp(-√W²(a,b)/C)，其中C=12.8
NWD损失：L_NWD = 1 - NWD(a,b)，即使IoU=0也严格为正

大小自适应权重：

CIoU通过对象面积的倒数重新加权：w_i = 1/(A_i + ε)
混合损失：L_SAL-NWD = λ·L_NWD + (1-λ)·L_CIoU·w̄
其中λ=0.5，w̄是批次中正锚点的平均大小自适应权重

4. 数据集对比分析

4.1 VisDrone2019-DET数据集概述

数据规模：

训练图像：6,471张
验证图像：548张
测试图像：1,610张
总标注实例：471,266个

数据特点：

跨越14个中国城市收集的大规模UAV基准
具有强烈变化的气象、地形和光照条件
包含10个类别的标注实例：行人、人群、自行车、汽车、货车、卡车、三轮车、遮阳三轮车、公交车和摩托车

小目标主导：

在该数据集中，68%的对象占用少于32×32像素
这为小目标检测算法提出了巨大挑战

4.2 数据集统计特征

图2：VisDrone2019-DET训练集统计

图表分析：

图2展示了VisDrone2019-DET训练集的详细统计信息：

1. 类别分布（左上）：

汽车实例占主导地位
小目标类别相对稀少
这种类别不平衡对检测算法提出了挑战

2. 边界框锚点（右上）：

显示了训练集中的边界框尺寸分布
大部分锚点集中在小尺寸范围
为anchor设计提供了参考

3. 对象中心的空间分布（左下）：

由于UAV拍摄角度，对象中心集中在图像中心附近
这种分布特征影响了检测策略的设计

4. 边界框大小分布（右下）：

确认了子32px对象的普遍性（宽度和高度<0.1在归一化坐标中）
为小目标检测问题的严重性提供了量化证据

数据集意义：

为UAV目标检测提供了标准化基准
反映了真实世界的挑战：变化的天气、地形、光照
小目标的高比例为算法设计提供了明确方向

4.3 数据集挑战与应对

主要挑战：

小目标密度高：68%对象<32×32像素
环境变化大：多种天气、地形、光照条件
类别不平衡：某些类别样本稀少
遮挡问题：密集场景中的相互遮挡

DroneScan-YOLO的应对策略：

通过1280×1280分辨率增强小目标检测
通过多尺度检测(MSFD)处理不同大小的目标
通过SAL-NWD损失解决小目标梯度消失问题
通过RPA-Block在保持精度的同时提高效率

5. 算法结构图与详细分析

5.1 系统整体架构

架构设计原理：

DroneScan-YOLO的系统架构体现了四个核心创新模块的协同作用：

1. 骨干网络层：

基于YOLOv8s，处理输入图像通过一系列卷积块
在第2层(64通道，P2)和第4层(128通道，P3)应用RPA-Block
高分辨率层产生最多的计算冗余，因此成为RPA-Block的主要目标

2. 特征金字塔网络(FPN)颈部：

集成MSFD作为额外的P2检测分支
P2特征通过深度可分离卷积块处理
P3特征上采样到P2分辨率并与P2特征融合

3. 检测头层：

包含传统的P3、P4、P5检测头
新增的MSFD P2检测头专门处理小目标
在检测头级别应用SAL-NWD损失

4. 分辨率增强：

训练分辨率从640×640提高到1280×1280
特征图空间分辨率提高了4倍
通过RPA-Block和MSFD的轻量化设计补偿计算开销

5.2 核心技术模块分析

RPA-Block的工作机制：

余弦相似度计算：
- 对卷积层的每个滤波器计算两两之间的余弦相似度
- 识别出学习到相似特征的冗余滤波器
动态修剪策略：
- 基于余弦相似度阈值θ=0.85进行修剪决策
- 10个epoch预热期，防止过早修剪破坏特征学习
- 每5个epoch懒惰更新，减少计算开销
计算效率提升：
- 在训练权重上达到15-20%的有效稀疏度
- 验证了滤波器收敛到冗余表示的假设
- 为高分辨率训练提供了计算可行性

MSFD的多尺度检测：

P2分支设计：
- 在步幅4上操作，特征图分辨率为320×320
- 使用深度可分离卷积减少计算成本
- 集成SE注意力机制提高特征表达能力
特征融合策略：
- P3特征上采样到P2分辨率
- 通过连接与P2特征融合
- 最终卷积层产生检测结果
轻量化实现：
- 总共仅增加114,592个参数(+1.1%)
- 通过可分离卷积减少FLOPs 8-9倍
- 为小目标检测提供了高效的多尺度方案

SAL-NWD损失的创新：

梯度稳定性：
- 标准化Wasserstein距离即使在不重叠情况下也提供非零梯度
- 解决了CIoU在小目标上的梯度消失问题
大小自适应：
- 对小目标应用更大的损失权重
- 通过对象面积的倒数进行加权
- 增强了对小目标的关注
混合损失：
- 结合NWD和CIoU的优势
- λ=0.5提供了最佳平衡
- 集成到YOLOv8的TaskAligned管道中

6. 算法预测结果与性能分析

6.1 整体性能对比

表：与最新技术的比较

模型	分辨率	mAP@50	mAP@50-95	召回率	参数量	FPS
YOLOv5s	640	0.231	0.125	0.363	7.2M	99.0
YOLOv8s	640	0.387	0.233	0.374	9.83M	~71
YOLO-LE	640	0.399	0.225	0.369	4.0M	93.0
DAU-YOLO	640	0.561	0.328	0.473	28.9M	†
DroneScan-YOLO	1280	0.553	0.356	0.518	10.23M	96.7

†：未报告推理速度

性能分析：

1. 整体提升显著：

与YOLOv8s基准相比，mAP@50提升+16.6点(38.7%→55.3%)
mAP@50-95提升+12.3点(23.3%→35.6%)
召回率从0.374提高到0.518(+38.5%)

2. 计算效率优异：

参数量仅增加+4.1%(9.83M→10.23M)
推理速度达到96.7 FPS，甚至比基准更高
在双倍分辨率下保持实时性能

3. 参数效率最佳：

mAP@50/百万参数比例为0.054，高于DAU-YOLO(0.019)和其他架构
实现了性能和效率的最佳平衡

6.2 F1曲线分析

图3：DroneScan-YOLO的F1-置信度曲线

图表分析：

图3展示了DroneScan-YOLO的F1-置信度曲线，揭示了模型的性能特征：

1. 最优置信度阈值：

最佳置信度阈值为0.265
在此阈值下，宏观平均F1分数达到0.56
低于默认Ultralytics参数，说明了自定义优化的重要性

2. 类别间性能差异：

大目标类别(汽车)：F1≈0.84，表现优异
小目标类别(自行车、遮阳三轮车)：F1较低，但仍有提升
这种差距反映了小目标检测的固有难度

3. 实际应用启示：

较低的置信度阈值(0.265 vs 默认0.5)有利于召回率
在实际部署中需要根据具体应用场景调整阈值
F1曲线为阈值选择提供了量化依据

6.3 混淆矩阵对比

图4：DroneScan-YOLO vs YOLOv8s基准的混淆矩阵

图表分析：

图4展示了标准化混淆矩阵的对比，直接说明了检测性能的改进：

1. 背景行的显著改善：

DroneScan-YOLO的背景行明显更亮
表示未检测到的对象大幅减少
行人的未检测率从0.62降至0.37，降低40%

2. 对角线增强：

DroneScan-YOLO的对角线元素更强
表示正确检测的比例提高
所有类别的召回率都有所提升

3. 小目标类别改进：

自行车、人群、遮阳三轮车等小目标类别的检测明显改善
验证了MSFD和SAL-NWD对小目标的优化效果

4. 错误分析：

主要错误集中在相似类别之间的混淆
例如汽车vs货车，人群vs行人
为进一步优化提供了方向

6.4 PR曲线分析

图5：DroneScan-YOLO vs YOLOv8s基准的PR曲线

图表分析：

图5展示了精确度-召回率曲线的对比，DroneScan-YOLO在所有10个VisDrone类别上都优于基准：

1. 最显著的改进：

自行车：0.114→0.321(+0.207，+182%)
遮阳三轮车：0.156→0.242(+0.086，+55%)
摩托车：0.419→0.642(+0.223，+53%)

2. 全类别提升：

所有10个类别的AP@50都有提升
平均提升为+0.166点
最大提升为+0.223点(摩托车)

3. 曲线形状分析：

DroneScan-YOLO的PR曲线更偏向右上角
表示在相同的召回率下具有更高的精确度
在相同的精确率下具有更高的召回率

4. 小目标优势明显：

小目标类别的改进最为显著
验证了高分辨率和多尺度检测的有效性
为小目标检测提供了成功范例

6.5 训练动态分析

图6：DroneScan-YOLO在100个epoch内的训练动态

图表分析：

图6展示了DroneScan-YOLO在1280×1280像素下100个epoch的训练曲线：

1. 三个明显的阶段：

第1-10轮(RPA预热期)： 模型快速收敛，第4轮达到0.385 mAP@50，接近640px基准的最终性能
第10-50轮(RPA激活期)： RPA-Block激活引入损失曲线的轻微变化，稀疏掩码逐步稳定
第50-85轮(细化期)： 模型细化检测至最终平台期0.553

2. 损失函数演化：

训练和验证损失(box、cls、DFL)单调递减
表明训练过程稳定，没有过拟合
验证损失的下降趋势与训练损失一致

3. 性能提升路径：

验证mAP@50从0.15上升到0.553
第85轮附近的小平台对应训练中断和从最后的检查点恢复
不影响最终收敛

4. 训练预算合理性：

100轮训练预算由DroneScan特定因素证明合理
1280px分辨率增加批次复杂度，自然减缓收敛
10轮RPA-Block预热延迟修剪机制的完全激活

6.6 定性结果展示

图1：DroneScan-YOLO在VisDrone验证图像上的定性结果

图7：DroneScan-YOLO的定性检测示例

图表分析：

图1和图7展示了DroneScan-YOLO在不同真实世界场景中的检测表现：

图1特征：

高置信度车辆检测： 置信度0.88-0.92，准确识别各类车辆
成功的小目标检测： 自行车检测置信度0.41，在低密度场景中成功识别
多类别检测能力： 同时检测汽车、货车、自行车等不同类别
场景适应性： 在复杂的真实场景中表现稳定

图7特征：

住宅停车场场景： 高置信度检测(0.88-0.92)和成功的自行车识别(置信度0.41)
城市交叉口场景： 复杂城市场景中的多类别检测，包括VisDrone上最具挑战性的类别遮阳三轮车
密集场景处理： 能够处理高密度的小目标检测
多样化环境适应： 在不同场景下保持稳定性能

定性优势：

小目标检测能力强，即使在远距离也能识别
对复杂背景和遮挡有一定鲁棒性
置信度校准合理，高置信度检测准确率高
适合实际部署应用

7. 系统优势与局限性

7.1 系统优势

1. 小目标检测能力突出：

68%的子32px对象检测显著改善
自行车AP@50提升+187%，遮阳三轮车+52%
行人未检测率降低40%

2. 计算效率优异：

仅增加4.1%参数
推理速度96.7 FPS，高于基准
mAP@50/百万参数比例最佳(0.054)

3. 系统性创新：

四个模块协同优化，不是简单堆叠
每个组件都针对特定问题设计
整体性能超过各部分之和

4. 实用性强：

代码完全开源
在真实数据集上验证
适合嵌入式UAV部署

7.2 系统局限性

1. 分辨率效应：

除分辨率效果外，架构模块的贡献估计为+3-5 mAP@50点
分辨率匹配的基准(YOLOv8s在1280px)未能在实验时间内完成

2. YOLO集成限制：

MSFD通过前向钩子丰富P2表示，但未作为YOLOv8的YAML架构中的原生检测头集成
这将阻碍完整梯度的P2预测

3. 修剪效率：

RPA-Block执行非结构化修剪，不物理移除参数
限制了在嵌入式硬件上的真实世界速度增益

4. 竞争对手对比：

DAU-YOLO达到竞争性的mAP@50(0.561)
但包含28.9M参数，是DroneScan-YOLO的2.8倍
可能使嵌入式UAV部署不适合

8. 实际应用价值与展望

8.1 实际应用价值

1. UBV监控与安全：

实时小目标检测能力增强UAV监控效果
适用于交通监控、边境巡逻等应用
提高安全性和响应速度

2. 搜索与救援：

改进小目标检测对寻找失踪人员或小物体至关重要
高召回率确保不遗漏重要目标
实时性能支持快速决策

3. 农业与基础设施：

用于农作物监测和病虫害检测
基础设施巡检和损坏识别
提高自动化水平和工作效率

4. 技术推广价值：

四模块协同设计为其他目标检测任务提供参考
小目标检测技术可应用于其他领域
轻量化设计适合移动和边缘计算

8.2 未来研究方向

1. 原生YAML集成：

将MSFD作为第五检测头集成到YOLOv8的YAML架构中
启用完整梯度的P2预测
提高架构的兼容性和可扩展性

2. 结构化修剪：

在RPA-Block中实现结构化通道修剪
实现硬件级加速
在嵌入式硬件上获得真实世界速度增益

3. 数据集扩展：

在互补的UAV基准(UAVDT、VisDrone-MOT)上验证
测试方法的泛化能力
评估在不同场景下的性能

4. 骨干网络升级：

探索更强的骨干网络作为DroneScan v2的基础
结合最新的架构创新
进一步提升性能

9. 总结

DroneScan-YOLO提出了一种UAV目标检测架构，同时解决了标准检测器的四个基本限制。该系统在VisDrone2019-DET上实现了55.3% mAP@50和35.6% mAP@50-95，分别超过YOLOv8s基准+16.6和+12.3点，仅增加+4.1%额外参数和96.7 FPS推理速度。

小目标类别上的提升最为显著：自行车AP@50相对提高+187%，行人未检测率降低40%，确认MSFD和SAL-NWD有效解决了子32px对象的步幅8限制。DroneScan-YOLO尽管双倍分辨率但仍比基准更快，证明RPA-Block成功补偿了1280px训练的计算开销。

主要贡献总结：

系统化解决小目标检测的四个相互关联问题
创新的RPA-Block动态修剪机制
轻量化MSFD多尺度检测分支
SAL-NWD混合损失解决小目标梯度消失
在保持实时性能的同时显著提升检测精度

技术价值：

为UAV目标检测提供了新的解决方案范式
在小目标检测领域取得了突破性进展
平衡了性能、速度和资源消耗
为相关研究提供了重要参考

DroneScan-YOLO的工作为UAV智能检测技术的发展做出了重要贡献，具有重要的理论意义和实际应用价值。

10. 参考信息

论文来源： arXiv:2604.13278
官方代码库： https://github.com/yannbellec/dronescan-yolo
数据集： VisDrone2019-DET
性能指标： mAP@50: 55.3%, mAP@50-95: 35.6%
推理速度： 96.7 FPS
参数量： 10.23M

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合