即插即用系列 | TGRS 2025 ASCNet：残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度

摘要本文提出ASCNet（非对称采样校正网络）用于红外图像去条纹。针对传统基于小波的U-Net存在的跨层级列语义鸿沟问题，ASCNet创新性地采用残差哈尔离散小波变换（RHDWT）作为下采样器，融合条纹方向先验和数据驱动特征；同时使用像素重组（PS）作为上采样器，避免语义偏差。网络还包含列非均匀性校正模块（CNCM），通过列注意力、空间注意力和自校准分支捕获全局列相关性。实验表明，ASCNet在

花开山岗红艳艳

928人浏览 · 2025-11-24 19:06:17

花开山岗红艳艳 · 2025-11-24 19:06:17 发布

论文名称：ASCNet: Asymmetric Sampling Correction Network for Infrared Image Destriping

论文原文 (Paper)：https://arxiv.org/abs/2401.15578
代码 (code)：https://github.com/xdFai/ASCNet

哔哩哔哩视频讲解：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

本论文的完整复现代码（即插即用版）已更新至专栏

即插即用系列（代码实践） | TGRS 2025 ASCNet：残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度

ASCNet：论文精读

1. 核心思想

该工作提出了一种名为 ASCNet (Asymmetric Sampling Correction Network) 的新型红外图像去条纹方法。其核心思想在于构建一个非对称采样的 U-Net 架构，以解决传统基于小波的 U-Net 中存在的“跨层级列语义鸿沟”问题。ASCNet 创新性地使用残差哈尔离散小波变换 (RHDWT) 作为下采样器，以融合条纹的方向先验和数据驱动的语义特征；同时，它抛弃了传统的逆小波变换 (IDWT)，转而采用像素重组 (Pixel Shuffle, PS) 作为上采样器，以实现无语义偏差的图像重建。网络中还嵌入了列非均匀性校正模块 (CNCM)，用于捕获全局的列相关性和长程依赖，从而精确地分离条纹噪声和背景细节。

2. 背景与动机

红外 (IR) 成像系统广泛应用于监控、检测等领域，但其焦平面阵列 (FPA) 的非均匀响应和列信号读出机制，极易引入垂直的条纹噪声。这种噪声严重降低了图像质量，并干扰了下游任务（如红外弱小目标检测, IRSTD）的性能。

现有的深度学习方法，特别是 U-Net 架构，在去条纹任务上取得了进展。其中，一些工作尝试利用离散小波变换 (DWT) 作为下采样器，因为它能将条纹噪声的能量（主要在水平梯度上）有效聚合到低频 ( $P_{ll}$ ) 和水平高频 ( $P_{hl}$ ) 子带中。

然而，该工作指出了现有方法的三个核心挑战 (Motivation)：

2.1 挑战一：IDWT 导致的跨层级列语义鸿沟

这是本文的核心动机。Figure 1 和 Figure 2 共同阐释了为什么传统的对称小波 U-Net (DWT/IDWT) 架构在去条纹任务上会失败。

Figure 1：问题的根源——“交叉污染” (Crosstalk)
- Figure 1© 展示了当一个特征图 S（而非原始图像 P）被送入 DWT 时会发生什么。DWT 确实将条纹噪声（主要存在于 S 中）聚合到了低频子带 ( $S_{ll}$ ) 和水平子带 ( $S_{hl}$ ) 中。
- 然而，在 U-Net 的编码器中，这些子带会被拼接 (Concatenate) 并送入一系列标准的 CNN 卷积层 ( $f_s(\cdot)$ ) 进行深度特征提取，得到 $K_c$ 。
- 关键问题在于：CNN 的卷积核具有“信道间信息交互” (channel-wise information interaction) 的特性。如 Figure 1(d) 的可视化所示，这种交互导致了**“交叉污染”**：原本干净的垂直子带 ( $K_{lh}$ ) 和对角子带 ( $K_{hh}$ ) 被 $S_{ll}$ 和 $S_{hl}$ 中的条纹噪声“重新污染”了。
Figure 2(a)：问题的显现——“跨层级列语义鸿沟”
- Figure 2(a) 展示了对称采样 (Symmetric Sampling: DWT/IDWT) 的解码过程。解码器使用逆小波变换 (IDWT) 作为上采样器。
- IDWT 的工作依赖一个固定的先验假设：它假设输入的 $K_c$ 中，各个子带 ( $K_{ll}, K_{lh}, K_{hl}, K_{hh}$ ) 完美对应着低频、垂直、水平、对角信息。
- 但正如 Figure 1(d) 所示，这个假设已经不成立了（ $K_{lh}$ 和 $K_{hh}$ 已被污染）。强行使用 IDWT 这个“错误的解码器”来重建特征，会导致严重的“跨层级列语义鸿沟” (cross-level column semantic gap)。
- 如图 2(a) 中的 CMRC (列均值响应曲线) 所示，在 IDWT 上采样（红线变为黑线）后，特征的列响应出现了剧烈且错误的波动（红色框高亮处），导致重建图像偏离了真实的列分布。
Figure 2(b)：解决方案的启示——非对称采样 (Asymmetric Sampling)
- Figure 2(b) 展示了本文提出的非对称采样 (DWT/PS) 所依赖的 Pixel Shuffle (PS) 像素重组。
- 核心优势：PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何固定的先验假设，也不进行复杂的线性计算。它只是简单地将低分辨率特征图的像素“重新排列” (reorganizes) 到高分辨率空间中。
- 效果对比：如图 2(b) 的 CMRC 所示，PS 的上采样过程（红线变为黑线）非常平滑，其列语义波动更加稳定。这证明了 PS 在解码被污染的条纹特征时，具有“更优越的语义衔接能力” (superior semantic articulation)，从而避免了语义鸿沟。

2.2 挑战二：独立下采样分支的表征能力不足

单独使用 DWT 作为下采样器，虽然引入了方向先验，但它只在空间维度采样，缺乏信道间的语义交互。而单独使用步进卷积 (Stride Convolution)，虽然考虑了语义特征，却忽略了条纹噪声的方向先验。

2.3 挑战三：特征增强未能捕获全局列特征

现有的注意力机制或校正模块，虽然尝试建模列特征，但缺乏对“全局上下文”中“长程依赖” (long-range dependencies) 的显式建模，导致无法在全局范围内有效地区分条纹和场景的垂直结构。

3. 主要贡献点

ASCNet 的设计正是为了系统性地解决上述三个问题。其主要贡献可归纳为以下三点：

提出非对称采样 (DWT/PS) 架构，解决语义鸿沟问题。
- 核心差异：针对 DWT/IDWT 对称采样导致的语义鸿G沟，ASCNet 提出了“非对称”思想。它保留了 DWT 作为下采样器以利用其条纹分离能力，但用 Pixel Shuffle (PS) 替换了 IDWT 作为上采样器。
- 工作机理：PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何像 IDWT 那样的线性计算和先验假设（即哪些子带应该代表什么）。相反，PS 只是直接重新排列 (reorganizes) 低分辨率特征图的像素到高分辨率空间。
- 效果：这种“较弱的先验假设” 使得 PS 能够更好地衔接被 CNN 污染的特征，保持了稳定的列语义波动，从而实现了更准确、无语义偏差的图像重建。
设计 RHDWT 下采样器，融合方向先验与语义交互。
- 核心差异：针对传统 DWT 缺乏语义交互和步进卷积缺乏方向先验的问题，该工作提出了残差哈尔离散小波变换 (RHDWT)。
- 工作机理：RHDWT 是一个双分支并行结构。
  1. 模型驱动分支 (Model-driven)：利用固定的哈尔小波 (HDWT) 滤波器分解特征，以编码条纹噪声的“方向先验知识”。
  2. 残差分支 (Residual)：利用一个标准的 $\times 3$ 步进卷积（步长为 2）来捕获“数据驱动的”跨信道语义信息。
- 效果：通过将两个分支的输出相加，RHDWT 实现了先验知识和数据驱动语义的有效补充，获得了比任何单一采样器都更丰富的特征表征。
设计 CNCM 模块，实现全局列特征校正。
- 核心差异：针对现有注意力机制缺乏全局长程依赖建模的问题，该工作设计了列非均匀性校正模块 (CNCM)。
- 工作机理：CNCM 的核心是 RCSSC 块 (Residual Column Spatial Self-Correction)。RCSSC 包含三个关键分支：
  1. 列注意力分支 (CAB)：通过 $(H, 1)$ 核的列平均池化和列最大池化，显式地加强列特征，以克服条纹噪声的列间差异。
  2. 空间注意力分支 (SAB)：通过全局（信道维度）池化，增强关键区域的结构表征。
  3. 自校准分支 (SCB)：通过“下采样-卷积-上采样”的操作，建立灵活的“远程依赖” (remote dependencies)，聚合全局上下文信息，以微调全局均匀性。
- 效果：CNCM 通过整合列均匀性、空间相关性和自依赖性，能有效捕获全局上下文中的列特征，从而更好地区分条纹和背景。

3.4 架构总结 (Fig 3 & 4)

ASCNet 的架构图设计巧妙地解决了 Figure 1 和 2 中提出的“跨层级列语义鸿沟”问题：

问题：DWT/IDWT 对称采样中的 IDWT 上采样器，其固定的先验假设与 CNN 造成的特征“交叉污染” (Fig 1c, 1d) 相冲突，导致了“语义鸿沟” (Fig 2a)。
解决方案 (ASCNet 架构, Fig 3)：
- 编码器 (RHDWT, Fig 3b)：使用 RHDWT 双分支结构，在下采样时就融合了“条纹方向先验”（模型驱动分支）和“跨信道语义”（残差分支），获得了更鲁棒、信息更丰富的编码特征。
- 解码器 (PS, Fig 3a)：抛弃 IDWT，采用“无语义偏差”的 Pixel Shuffle 作为上采样器。如图 2(b) 所示，PS 具有更强的语义衔接能力，能平滑地解码被污染的特征，从根本上避免了“语义鸿沟”的产生。
- 校正器 (CNCM/RCSSC, Fig 4)：在网络的编码、解码和跳跃连接的每个关键节点都插入了强大的 CNCM 模块。该模块利用其三大分支（列注意 CAB、空间注意 SAB、自校准 SCB）来捕获全局上下文和长程列依赖，从而能精确地区分条纹噪声和真实的场景垂直结构。

4. 方法细节 (架构与模块详解)

4.1 整体网络架构 (Figure 3)

Figure 3 是 ASCNet 的总架构图，它清晰地展示了数据如何在一个“非对称 U-Net” 中流动的。

结构图

输入与浅层特征：
- 输入是“Degraded image ( $I_D$ )”。
- 首先经过两个卷积层，提取浅层特征 $F_0$ 和 $F_1$ 。
编码器路径 (Encoder Path) (红色粗箭头)：
- 这是一个包含 3 个阶段的下采样路径。
- 在每个阶段，特征图首先通过一个 RHDWT (Residual Haar Discrete Wavelet Transform) 模块进行下采样（分辨率 H/2, W/2）。
- 紧接着，下采样后的特征被送入一个 CNCM (Column Non-uniformity Correction Module) 模块进行深度的特征增强和校正。
解码器路径 (Decoder Path) (蓝色粗箭头)：
- 这是一个包含 3 个阶段的上采样路径。
- 在每个阶段，特征图通过 Pixel Shuffle (PS) 模块进行上采样（分辨率 2H, 2W），这构成了“非对称”的核心。
跳跃连接 (Skip Connection) (黑色箭头)：
- ASCNet 采用了长跳跃连接来融合编码器（下采样路径）和解码器（上采样路径）的特征。
- 融合机制：
  1. 编码器特征（来自 CNCM）和解码器特征（来自 PS）被拼接 (Concatenate)。
  2. 使用 $\times 3$ 卷积来统一信道维度。
  3. 使用 $\times 1$ 卷积将信道数减半。
  4. 融合后的特征再次被送入一个 CNCM 模块，以在融合了多尺度信息后，精细地分离条纹和纹理细节。
输出 (Output)：
- 经过最后两个卷积层（增强高分辨率特征 $F_d$ ）和一个 $\times 1$ 卷积 + Tanh 激活函数，网络输出的是残差条纹噪声 $I_N$ 。
- 最终，输出的噪声 $I_N$ 与原始输入 $I_D$ 相加 (Element-wise Addition)，得到最终的去条纹“Output ( $I_O$ )”。

4.2 RHDWT (Residual Haar Discrete Wavelet Transform)

RHDWT 被设计为 ASCNet 的下采样模块 (如图 3(b))，它旨在解决单一采样器的局限性。

理念：结合“模型驱动”的先验（Haar 小波的方向性）和“数据驱动”的语义（标准卷积的跨信道交互）。
机制：

对于输入特征 $I_i \in \mathbb{R}^{C \times H \times W}$ ，RHDWT 并行处理两个分支：
1. 模型驱动分支 (Model-driven Branch)：
  - 首先，使用 HDWT 算子 $\Phi(\cdot)$ 对 $I_i$ 进行分解。这会产生四个子带 $S_{ll}, S_{lh}, S_{hl}, S_{hh}$ ，它们在信道维度被拼接 (Concatenate)。
  - 然后，使用一个 $\times 3$ 卷积 $f_{3\times3}^{\delta}$ （后跟 LeakyReLU）来压缩信道并进行初步的语义融合。
  - 输出为： $I_{model}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})])$ 。
2. 残差分支 (Residual Branch)：
  - 使用一个 $\times 3$ 、步长为 2 的卷积 $f_{3\times3}^{s=2}$ 直接对 $I_i$ 进行下采样。
  - 这个分支捕获了标准 CNN 擅长的空间和语义特征。
  - 输出为： $I_{res}^{out} = f_{3\times3}^{s=2}(I_{i})$ 。
总结：

最终的输出 $I_R$ 是两个分支的逐元素相加：

$I_R = I_{model}^{out} + I_{res}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})]) + f_{3\times3}^{s=2}(I_{i})$

这种并行结构确保了条纹的方向先验（来自 $\Phi(\cdot)$ ）和数据驱动的语义（来自 $f_{3\times3}^{s=2}$ ）被同时保留和增强。

4.3 CNCM (Column Non-uniformity Correction Module)

CNCM 是网络中的核心特征增强单元。它首先将多个 RCSSC 块嵌入到一个密集连接残差 (DCR) 结构中 (如图 3©)，以增强信息流和特征重用。

理念：条纹噪声在列上具有一致性，但在全局上又具有非均匀性。因此，模块需要同时建模“列特性”、“空间结构”和“全局长程依赖”。
机制 (RCSSC 块, Fig 4)：

RCSSC 块 (如图 4 所示) 接收输入 $\in \mathbb{R}^{C \times H \times W}$ ，并并行通过三个分支：
1. CAB (Column Attention Branch)：
  - 目标：强化列特征，使同一列内的像素获得相似的校正系数。
  - 流程：
    
    a. 使用 $(H, 1)$ 核的列平均池化 ( $f_{column}^{Avg}$ ) 和列最大池化 ( $f_{columm}^{Max}$ ) 分别作用于 $X$ ，得到两个 $ \mathbb{R}^{C \times 1 \times W}$ 的列描述子。
    
    b. 拼接 (Concatenate) 二者得到 $M_c \in \mathbb{R}^{2C \times 1 \times W}$ 。
    
    c. $M_c$ 经过共享的 1x1 卷积 (CBL) 后，被拆分 (Split) 为两个分支 $X_a$ 和 $X_m$ 。
    
    d. $X_a$ 和 $X_m$ 分别经过各自的信道注意力模块（Conv+BN+ReLU+Conv+Sigmoid），生成列注意力权重。
    
    e. 最终输出 $C A$ 是输入 $X$ 与这两个权重（广播后）的乘积。
  - 创新：CAB 采用了双池化 (Avg+Max)、特征拆分和双重校正策略 (dual-correction)，获得了更好的性能。
2. SAB (Spatial Attention Branch)：
  - 目标：增强关键区域的“空间相关性”。
  - 流程：这是一个标准的空间注意力模块。它对输入 $X$ 沿信道维度进行全局平均池化 ( $f_{spatial}^{Avg}$ ) 和最大池化 ( $f_{spatial}^{Max}$ )。将两者拼接后，通过一个 $\times 3$ 卷积和 Sigmoid 激活函数 $f_{3\times3}^{s}$ 生成空间掩码。
  - 输出为： $f_{3\times3}^{s}([f_{spatial}^{Avg}(X), f_{spatial}^{Max}(X)]) \odot X$ 。
3. SCB (Self-Calibrated Branch)：
  - 目标：建立“长程依赖” (long-range dependencies)，聚合全局上下文信息。
  - 流程：
    
    a. 使用 $\times 2$ 平均池化 $\mathcal{H}_2(\cdot)$ 对 $X$ 进行下采样。
    
    b. 通过卷积 $conv(\cdot)$ 提取上下文特征。
    
    c. 使用双线性插值 $\mathcal{B}_2(\cdot)$ 上采样回原始分辨率。
    
    d. 将结果与 $X$ 相加（残差连接），并通过 Sigmoid 激活 $\delta_s$ 生成调制权重 $SC$ 。
  - 输出为： $\delta_s(X + \mathcal{B}_2(conv(\mathcal{H}_2(X))))$ 。
总结 (RCSSC)：

三个分支的输出被融合。CAB 和 SAB 的输出被拼接并通过 $\times 1$ 卷积 $f_{1\times1}$ 融合，然后与 SCB 的输出（作为调制器）进行 Hadamard 乘积 ( $\odot$ )。最后，通过残差连接加上原始输入 $X$ ：

$C_o = f_{1\times1}([SA, CA]) \odot SC + X$

这个设计确保了模块能同时关注列、空间和全局上下文三个维度的信息。

5. 即插即用模块的作用、适用场景和应用

ASCNet 中的 RHDWT 和 CNCM (RCSSC) 模块具有很强的通用性，可以作为即插即用 (Plug-and-Play) 模块应用于其他网络和任务。

5.1 RHDWT (下采样模块)

作用：

替代标准的下采样层（如 $\times 3$ 步进卷积或 Max Pooling）。
适用场景：
1. 具有强方向性先验的任务：当处理的图像或特征中包含已知的、固定的方向性结构（如条纹、雨丝、扫描线、Moiré 图案）时。
2. 需要保留先验和语义的任务：当既需要利用固定的物理先验（如小波分解）又需要学习数据驱动的深度语义特征时。
具体应用：
1. 图像恢复：
  - 图像去雨 (Deraining)：雨丝具有明显的方向性，RHDWT 可以融合雨丝的方向先验和场景的语义。
  - 去摩尔纹 (Demoiréing)：Moiré 图案也常具有固定的高频方向性。
  - 去隔行扫描线 (Deinterlacing)：处理隔行扫描视频产生的水平线伪影。
2. 特征提取：
  - 语义分割/目标检测：用于处理具有高度结构化方向的场景，如城市场景（建筑物的垂直边缘、道路的水平边缘）或遥感图像中的农田。

5.2 CNCM / RCSSC (特征增强模块)

作用：

替代标准的特征增强块（如 ResBlock、SE-Net 模块、CBAM）。
适用场景：
1. 各向异性 (Anisotropic) 特征建模：当特征在某一维度（如列或行）上的相关性远大于其他维度时。CNCM 的 CAB 分支专门用于处理这种“列相关性”。
2. 需要全局上下文校正的任务：当局部感受野不足以区分噪声/伪影和真实结构，需要长程依赖和全局信息进行校正时（由 SCB 和 SAB 提供）。
3. 传感器非均匀性校正：适用于校正由传感器（如 FPA）硬件特性引起的、具有空间相关性的固定模式噪声。
具体应用：
1. 图像恢复：
  - 红外图像去条纹 (Destriping)：（本文应用）。
  - 遥感图像校正：校正遥感图像中的传感器条带噪声。
  - 医疗影像伪影去除：去除 CT 或 MRI 中的环状伪影或运动伪影（如果它们表现出某种空间相关性）。
2. 下游视觉任务（作为预处理或网络内部模块）：
  - 红外弱小目标检测 (IRSTD)：CNCM 能有效抑制条纹噪声，提高目标的信噪比 (SNR)，从而提升下游检测器的检测概率和 F-measure。
  - 低光照图像增强：低光照下传感器噪声（包括列噪声）更明显，CNCM 可用于在增强亮度的同时抑制噪声。

到此，所有的内容就基本讲完了。如果觉得这篇文章对你有用，记得点赞、收藏并分享给你的小伙伴们哦😄。

6 获取更多高质量论文及即插即用代码关注【AI即插即用】

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合