哈工大突破性框架 LTDNet：485 万参数实现遥感小目标检测效率精度双优

小白学视觉

471人浏览 · 2025-09-12 19:02:24

小白学视觉 · 2025-09-12 19:02:24 发布

好消息！加入知识星球，详细阅读本文PDF完整版

在遥感图像里找目标，就像在足球场里找蚂蚁——尤其是那些只有几个像素大小的微小目标，简直是计算机视觉领域的"老大难"。今天要给大家介绍的这项研究，专门为解决这个难题而来！来自科研团队的最新成果LTDNet，用轻量级网络结构实现了遥感图像微小目标的高效检测，参数只有485万，却能在AI-TODv2数据集上达到54.6%的AP50，堪称"小身材大能量"的典范。

论文信息

题目：Exploring Lightweight Structures for Tiny Object Detection in Remote Sensing Images

探索用于遥感图像中微小目标检测的轻量级结构

作者：Dongyang Liu, Junping Zhang, Yunxiao Qi, Yunqiao Xi, Jing Jin

源码：https://github.com/dyl96/LTDNet

为什么遥感微小目标检测这么难？

先来看张图感受下难度：

遥感图像里的微小目标有多"迷你"？数据显示，在AI-TODv2数据集里，86%的目标都小于16×16像素，有的甚至就几个像素点。想象一下，在800×800的图像里找一个10×10的目标，就像在大海里捞针。

更麻烦的是，现有检测方法要么精度不够，要么模型太笨重。比如经典的ResNet50骨干网络，参数多、计算量大，根本没法在资源有限的设备上运行。而那些轻量化模型又往往牺牲了检测精度，面对微小目标时更是力不从心。

LTDNet三大核心创新，兼顾轻量与精度

研究团队针对性地提出了LTDNet（轻量级微小目标检测网络），从三个方面实现了突破：

1. 给骨干网络"重新分配算力"——RepViT-TD登场

传统骨干网络把大部分计算资源放在后期阶段，但对于微小目标来说，早期高分辨率特征才是关键。就像看远处的小字，我们需要先聚焦才能看清楚细节。

RepViT-TD做了个大胆的设计：

把计算资源从后期阶段转移到前两个阶段
四个阶段的网络块数量调整为4、4、2、1（传统模型往往是前少后多）
采用先进的RepViT模块作为基础单元，训练时多分支结构，推理时合并为单个3×3卷积

这种设计让网络在保持轻量级的同时，能更好地捕捉微小目标的细节信息。实验显示，和同量级的EfficientFormerV2相比，用RepViT-TD的FCOS检测器AP提升了4.6%！

2. 带"变形"能力的轻量级检测头

检测头是最终判断目标位置和类别的关键。团队发现：

传统检测头的四层卷积可以精简到两层，精度几乎不变
加入可变形卷积（DCN）能显著提升检测效果

可变形卷积就像给网络装上了"灵活的眼睛"，能根据目标形状自动调整采样位置，特别适合捕捉不规则的微小目标。这种设计让检测头在参数和计算量下降的同时，精度反而提高了。

3. 精打细算的通道数选择

网络通道数就像高速公路的车道，不是越多越好。团队通过消融实验发现：

通道数从256降到96时，计算量大幅下降但精度变化不大
降到64以下时精度才会明显下滑

最终选择96作为特征通道数，在精度和效率间找到了完美平衡点。

LTDNet整体架构长这样

把上面这些创新点组合起来，就构成了LTDNet的整体架构：

整个网络遵循FCOS的无锚点设计思路，由三部分组成：

RepViT-TD骨干网络负责特征提取
特征融合网络（FPN）处理多尺度特征
轻量级检测头负责最终预测

这种结构让LTDNet在保持极简身材的同时，拥有了强大的检测能力。

实验结果惊艳：参数少一半，精度不打折

在AI-TODv2数据集上的测试显示，LTDNet表现相当亮眼：

仅用485万参数和381.9亿FLOPs，就实现了54.6%的AP50
相比ORFENet，参数只有其14.8%，计算量仅10%，但AP50达到其98.6%

来看这个直观对比图：

图中每个点越靠近左上角，说明模型越高效。LTDNet不仅位置靠左（参数少、计算量小），而且圆圈最大（性能更好），优势一目了然。

在LEVIR-Ship船舶检测数据集上，LTDNet同样表现出色，AP50达到84.0%，而参数和计算量远低于其他方法：

更重要的是，这个轻量级模型在边缘设备上的表现也很给力——在Jetson AGX Orin上，800×800分辨率下能跑到27 FPS，完全满足实时检测需求！

实际检测效果怎么样？看图说话

从可视化结果能看到，LTDNet在车辆、储罐、船舶等类别上检测效果都不错。无论是单一类别场景还是多类别混合场景，都能准确识别。即使是在有云层干扰的海面上，也能精准找到船舶：

当然，研究团队也坦诚，对于那些极其微小且高度聚集的目标，检测效果还有提升空间，这也是未来的研究方向。

为什么这项研究很重要？

遥感图像微小目标检测在很多领域都有重要应用：

军事侦察：识别远距离的小型目标
海上救援：快速定位遇险船只
交通监控：统计偏远地区的车辆
环境监测：追踪小型污染源

这些场景往往需要在无人机、卫星等资源受限的设备上运行检测算法，LTDNet的轻量级特性正好满足了这种需求。

总结一下

LTDNet通过三个关键创新，实现了遥感微小目标检测的"轻量高效"：

RepViT-TD骨干网络：重新分配计算资源，强化早期特征提取
轻量级检测头：融合可变形卷积，平衡精度和效率
优化通道数：在96通道数下实现最佳性价比

这项研究告诉我们：面对特定任务，针对性设计网络结构比盲目堆砌参数更有效。对于遥感微小目标检测这种难题，"量身定制"的轻量级结构可能比通用的重量级模型表现更好。

如果你对这个研究感兴趣，可以去GitHub看看源码：https://github.com/dyl96/LTDNet，说不定能给你的项目带来新启发！

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

PaperEveryday为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 PaperEveryday 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加PaperEveryday小编

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合