点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达

在自然界中,生物通过伪装融入环境实现生存,而在计算机视觉领域,伪装目标检测(COD) 正是要让机器拥有识破这种"生存智慧"的能力。从生物多样性保护到工业缺陷检测,COD技术的应用价值日益凸显。然而,当目标与背景无缝融合,现有方法往往陷入边界模糊和过度自信预测的困境。

近期发表于TPAMI 2025的研究《Conditional Diffusion Models for Camouflaged and Salient Object Detection》提出了创新性解决方案——CamoDiffusion,一种基于条件扩散模型的全新检测框架。该方法不仅在三大COD数据集上刷新SOTA性能,更在显著目标检测(SOD)任务中展现出强大通用性。

论文信息

题目:Conditional Diffusion Models for Camouflaged and Salient Object Detection
用于伪装和显著目标检测的条件扩散模型
作者:Ke Sun, Zhongxi Chen, Xianming Lin, Xiaoshuai Sun, Hong Liu, Rongrong Ji

伪装检测的两大核心挑战

如图1所示,即使是最先进的现有方法也面临难以逾越的障碍:

  • 边界模糊问题:伪装目标与背景的视觉线索极为相似,导致轮廓勾勒困难

  • 过度自信预测:受数据集分布偏差影响,模型常将非伪装区域误判为目标

现有方法在复杂伪装场景中的局限性图1:SINet-V2和ZoomNet等方法在复杂伪装场景中出现的边界模糊和过度分割问题

扩散模型的迭代去噪特性为解决这些问题提供了新思路。其逐步细化机制能够捕捉细微边界特征,而随机采样过程可有效降低错误置信度风险。CamoDiffusion正是基于这一思路,构建了完整的条件扩散解决方案。

方法总体架构:四步创新构建检测框架

CamoDiffusion的核心框架如图2所示,通过四大创新模块的协同工作,实现了伪装目标的精准检测:

CamoDiffusion框架总体流程图图2:CamoDiffusion框架整体流程,展示了从图像输入到最终掩码输出的完整过程

1. 自适应变压器条件网络(ATCN)

特征提取是检测任务的基础,ATCN通过两大模块实现伪装特征的精准捕捉:

  • 零重叠嵌入(ZOE):将噪声掩码信息以零初始化卷积的方式融入特征提取过程,既保留原始图像特征,又能引导网络关注目标区域

  • 时间令牌连接(TTC):将扩散步骤信息编码为时间令牌,使网络能根据去噪阶段动态调整特征提取策略

ATCN与去噪网络结构细节图3:(a)自适应变压器条件网络(ATCN)结构;(b)去噪网络(DN)结构

2. 基于信噪比的训练策略

为增强模型对低质量输入的处理能力,研究提出:

  • 噪声调度优化:通过调整信噪比(SNR)偏移量,增加训练难度,迫使模型学习更鲁棒的特征表示

  • 结构破坏策略:对真实掩码进行轮廓修改(随机删除顶点、移动位置、膨胀腐蚀等),直到IoU降至0.8-1.0区间,显著提升模型的边界修正能力

结构破坏策略效果展示图4:结构破坏策略对真实掩码的修改效果,增强了训练数据的多样性

3. 共识时间集成(CTE)采样

针对扩散过程中的中间预测错误问题,CTE技术通过:

  • 收集所有时间步的中间预测结果

  • 自适应阈值化生成二进制掩码

  • 像素级投票与均值融合生成最终结果

有效减少了过度自信预测,提升了结果可靠性。

CTE采样技术效果可视化图5:CTE技术通过集成多步预测降低不确定性,右侧为不同采样的方差热力图

4. 双重加速策略

为平衡性能与效率,研究提出:

  • ATCN-Skip:交替跳过冗余的条件网络计算,将ATCN计算量减半,FPS提升38.5%

  • VQ-VAE集成:在潜在空间执行扩散过程,大幅降低计算资源需求

ATCN-Skip加速策略示意图图6:ATCN-Skip策略通过重用前一步特征图减少计算量

实验结果:全面超越现有方法

在CAMO、COD10K和NC4K三大COD数据集上,CamoDiffusion的三个版本(基础版、VAE加速版、CTE增强版)均取得SOTA性能:

  • 平均MAE降低20.9%

  • 分数提高7.7%

  • 即使轻量级版本也显著优于传统方法

COD任务定性结果对比图7:CamoDiffusion(右一)与现有方法在复杂场景中的对比,展示了更精准的边界和更少的误判

值得注意的是,该方法在SOD任务中同样表现出色,在DUT-OMRON等数据集上超越14种先进方法,证明了其良好的通用性。消融实验表明:

  • ZOE和TTC模块对性能提升至关重要

  • SNR调度与结构破坏策略的组合可使S-度量从0.821提升至0.868

  • CTE技术将过度自信错误像素比例从91%降至76%

采样步骤与SNR偏移的超参数分析图9:不同采样步骤和SNR偏移对模型性能的影响,10步采样为推荐设置

总结与展望

CamoDiffusion通过将条件扩散模型引入伪装目标检测,创新性地解决了边界模糊和过度自信两大核心问题。其四大技术创新不仅带来了性能突破,更通过加速策略确保了方法的实用性。

该研究为生物医学影像分析、无人机侦察等实际应用提供了强大工具,同时也为其他细粒度分割任务提供了有益借鉴。随着扩散模型在计算机视觉领域的持续发展,我们有理由期待更多跨领域的创新应用。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐