TPAMI 2025 | 多模态条件融合新框架：CamoDiffusion让伪装目标与显著目标检测统一最优

在自然界中，生物通过伪装融入环境实现生存，而在计算机视觉领域，伪装目标检测（COD）正是要让机器拥有识破这种"生存智慧"的能力。值得注意的是，该方法在SOD任务中同样表现出色，在DUT-OMRON等数据集上超越14种先进方法，证明了其良好的通用性。：对真实掩码进行轮廓修改（随机删除顶点、移动位置、膨胀腐蚀等），直到IoU降至0.8-1.0区间，显著提升模型的边界修正能力。图7：CamoDiffu

小白学视觉

279人浏览 · 2025-12-21 20:10:43

小白学视觉 · 2025-12-21 20:10:43 发布

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

在自然界中，生物通过伪装融入环境实现生存，而在计算机视觉领域，伪装目标检测（COD）正是要让机器拥有识破这种"生存智慧"的能力。从生物多样性保护到工业缺陷检测，COD技术的应用价值日益凸显。然而，当目标与背景无缝融合，现有方法往往陷入边界模糊和过度自信预测的困境。

近期发表于TPAMI 2025的研究《Conditional Diffusion Models for Camouflaged and Salient Object Detection》提出了创新性解决方案——CamoDiffusion，一种基于条件扩散模型的全新检测框架。该方法不仅在三大COD数据集上刷新SOTA性能，更在显著目标检测（SOD）任务中展现出强大通用性。

论文信息

题目：Conditional Diffusion Models for Camouflaged and Salient Object Detection

用于伪装和显著目标检测的条件扩散模型

作者：Ke Sun, Zhongxi Chen, Xianming Lin, Xiaoshuai Sun, Hong Liu, Rongrong Ji

伪装检测的两大核心挑战

如图1所示，即使是最先进的现有方法也面临难以逾越的障碍：

边界模糊问题：伪装目标与背景的视觉线索极为相似，导致轮廓勾勒困难
过度自信预测：受数据集分布偏差影响，模型常将非伪装区域误判为目标

现有方法在复杂伪装场景中的局限性 图1：SINet-V2和ZoomNet等方法在复杂伪装场景中出现的边界模糊和过度分割问题

扩散模型的迭代去噪特性为解决这些问题提供了新思路。其逐步细化机制能够捕捉细微边界特征，而随机采样过程可有效降低错误置信度风险。CamoDiffusion正是基于这一思路，构建了完整的条件扩散解决方案。

方法总体架构：四步创新构建检测框架

CamoDiffusion的核心框架如图2所示，通过四大创新模块的协同工作，实现了伪装目标的精准检测：

CamoDiffusion框架总体流程图 图2：CamoDiffusion框架整体流程，展示了从图像输入到最终掩码输出的完整过程

1. 自适应变压器条件网络（ATCN）

特征提取是检测任务的基础，ATCN通过两大模块实现伪装特征的精准捕捉：

零重叠嵌入（ZOE）：将噪声掩码信息以零初始化卷积的方式融入特征提取过程，既保留原始图像特征，又能引导网络关注目标区域
时间令牌连接（TTC）：将扩散步骤信息编码为时间令牌，使网络能根据去噪阶段动态调整特征提取策略

ATCN与去噪网络结构细节 图3：(a)自适应变压器条件网络（ATCN）结构；(b)去噪网络（DN）结构

2. 基于信噪比的训练策略

为增强模型对低质量输入的处理能力，研究提出：

噪声调度优化：通过调整信噪比（SNR）偏移量，增加训练难度，迫使模型学习更鲁棒的特征表示
结构破坏策略：对真实掩码进行轮廓修改（随机删除顶点、移动位置、膨胀腐蚀等），直到IoU降至0.8-1.0区间，显著提升模型的边界修正能力

结构破坏策略效果展示 图4：结构破坏策略对真实掩码的修改效果，增强了训练数据的多样性

3. 共识时间集成（CTE）采样

针对扩散过程中的中间预测错误问题，CTE技术通过：

收集所有时间步的中间预测结果
自适应阈值化生成二进制掩码
像素级投票与均值融合生成最终结果

有效减少了过度自信预测，提升了结果可靠性。

CTE采样技术效果可视化 图5：CTE技术通过集成多步预测降低不确定性，右侧为不同采样的方差热力图

4. 双重加速策略

为平衡性能与效率，研究提出：

ATCN-Skip：交替跳过冗余的条件网络计算，将ATCN计算量减半，FPS提升38.5%
VQ-VAE集成：在潜在空间执行扩散过程，大幅降低计算资源需求

ATCN-Skip加速策略示意图 图6：ATCN-Skip策略通过重用前一步特征图减少计算量

实验结果：全面超越现有方法

在CAMO、COD10K和NC4K三大COD数据集上，CamoDiffusion的三个版本（基础版、VAE加速版、CTE增强版）均取得SOTA性能：

平均MAE降低20.9%
分数提高7.7%
即使轻量级版本也显著优于传统方法

COD任务定性结果对比 图7：CamoDiffusion（右一）与现有方法在复杂场景中的对比，展示了更精准的边界和更少的误判

值得注意的是，该方法在SOD任务中同样表现出色，在DUT-OMRON等数据集上超越14种先进方法，证明了其良好的通用性。消融实验表明：

ZOE和TTC模块对性能提升至关重要
SNR调度与结构破坏策略的组合可使S-度量从0.821提升至0.868
CTE技术将过度自信错误像素比例从91%降至76%

采样步骤与SNR偏移的超参数分析 图9：不同采样步骤和SNR偏移对模型性能的影响，10步采样为推荐设置

总结与展望

CamoDiffusion通过将条件扩散模型引入伪装目标检测，创新性地解决了边界模糊和过度自信两大核心问题。其四大技术创新不仅带来了性能突破，更通过加速策略确保了方法的实用性。

该研究为生物医学影像分析、无人机侦察等实际应用提供了强大工具，同时也为其他细粒度分割任务提供了有益借鉴。随着扩散模型在计算机视觉领域的持续发展，我们有理由期待更多跨领域的创新应用。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合