即插即用系列 | TGRS 2025 ASCNet:残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度
摘要 本文提出ASCNet(非对称采样校正网络)用于红外图像去条纹。针对传统基于小波的U-Net存在的跨层级列语义鸿沟问题,ASCNet创新性地采用残差哈尔离散小波变换(RHDWT)作为下采样器,融合条纹方向先验和数据驱动特征;同时使用像素重组(PS)作为上采样器,避免语义偏差。网络还包含列非均匀性校正模块(CNCM),通过列注意力、空间注意力和自校准分支捕获全局列相关性。实验表明,ASCNet在
论文名称:ASCNet: Asymmetric Sampling Correction Network for Infrared Image Destriping
论文原文 (Paper):https://arxiv.org/abs/2401.15578
代码 (code):https://github.com/xdFai/ASCNet
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0
本论文的完整复现代码(即插即用版)已更新至专栏
即插即用系列(代码实践) | TGRS 2025 ASCNet:残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度
目录
ASCNet: 论文精读
1. 核心思想
该工作提出了一种名为 ASCNet (Asymmetric Sampling Correction Network) 的新型红外图像去条纹方法。其核心思想在于构建一个非对称采样的 U-Net 架构,以解决传统基于小波的 U-Net 中存在的“跨层级列语义鸿沟”问题。ASCNet 创新性地使用残差哈尔离散小波变换 (RHDWT) 作为下采样器,以融合条纹的方向先验和数据驱动的语义特征;同时,它抛弃了传统的逆小波变换 (IDWT),转而采用像素重组 (Pixel Shuffle, PS) 作为上采样器,以实现无语义偏差的图像重建。网络中还嵌入了列非均匀性校正模块 (CNCM),用于捕获全局的列相关性和长程依赖,从而精确地分离条纹噪声和背景细节。
2. 背景与动机
红外 (IR) 成像系统广泛应用于监控、检测等领域,但其焦平面阵列 (FPA) 的非均匀响应和列信号读出机制,极易引入垂直的条纹噪声。这种噪声严重降低了图像质量,并干扰了下游任务(如红外弱小目标检测, IRSTD)的性能。
现有的深度学习方法,特别是 U-Net 架构,在去条纹任务上取得了进展。其中,一些工作尝试利用离散小波变换 (DWT) 作为下采样器,因为它能将条纹噪声的能量(主要在水平梯度上)有效聚合到低频 ( P l l P_{ll} Pll) 和水平高频 ( P h l P_{hl} Phl) 子带中。
然而,该工作指出了现有方法的三个核心挑战 (Motivation):
2.1 挑战一:IDWT 导致的跨层级列语义鸿沟
这是本文的核心动机。Figure 1 和 Figure 2 共同阐释了为什么传统的对称小波 U-Net (DWT/IDWT) 架构在去条纹任务上会失败。
- Figure 1:问题的根源——“交叉污染” (Crosstalk)
- Figure 1© 展示了当一个特征图 S(而非原始图像 P)被送入 DWT 时会发生什么。DWT 确实将条纹噪声(主要存在于 S 中)聚合到了低频子带 ( S l l S_{ll} Sll) 和水平子带 ( S h l S_{hl} Shl) 中。
- 然而,在 U-Net 的编码器中,这些子带会被拼接 (Concatenate) 并送入一系列标准的 CNN 卷积层 ( f s ( ⋅ ) f_s(\cdot) fs(⋅) ) 进行深度特征提取,得到 K c K_c Kc。
- 关键问题在于:CNN 的卷积核具有“信道间信息交互” (channel-wise information interaction) 的特性。如 Figure 1(d) 的可视化所示,这种交互导致了**“交叉污染”**:原本干净的垂直子带 ( K l h K_{lh} Klh) 和对角子带 ( K h h K_{hh} Khh) 被 S l l S_{ll} Sll 和 S h l S_{hl} Shl 中的条纹噪声“重新污染”了。
- Figure 2(a):问题的显现——“跨层级列语义鸿沟”
- Figure 2(a) 展示了对称采样 (Symmetric Sampling: DWT/IDWT) 的解码过程。解码器使用逆小波变换 (IDWT) 作为上采样器。
- IDWT 的工作依赖一个固定的先验假设:它假设输入的 K c K_c Kc 中,各个子带 ( K l l , K l h , K h l , K h h K_{ll}, K_{lh}, K_{hl}, K_{hh} Kll,Klh,Khl,Khh) 完美对应着低频、垂直、水平、对角信息。
- 但正如 Figure 1(d) 所示,这个假设已经不成立了( K l h K_{lh} Klh 和 K h h K_{hh} Khh 已被污染)。强行使用 IDWT 这个“错误的解码器”来重建特征,会导致严重的“跨层级列语义鸿沟” (cross-level column semantic gap)。
- 如图 2(a) 中的 CMRC (列均值响应曲线) 所示,在 IDWT 上采样(红线变为黑线)后,特征的列响应出现了剧烈且错误的波动(红色框高亮处),导致重建图像偏离了真实的列分布。
- Figure 2(b):解决方案的启示——非对称采样 (Asymmetric Sampling)
- Figure 2(b) 展示了本文提出的非对称采样 (DWT/PS) 所依赖的 Pixel Shuffle (PS) 像素重组。
- 核心优势:PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何固定的先验假设,也不进行复杂的线性计算。它只是简单地将低分辨率特征图的像素“重新排列” (reorganizes) 到高分辨率空间中。
- 效果对比:如图 2(b) 的 CMRC 所示,PS 的上采样过程(红线变为黑线)非常平滑,其列语义波动更加稳定。这证明了 PS 在解码被污染的条纹特征时,具有“更优越的语义衔接能力” (superior semantic articulation),从而避免了语义鸿沟。
2.2 挑战二:独立下采样分支的表征能力不足
单独使用 DWT 作为下采样器,虽然引入了方向先验,但它只在空间维度采样,缺乏信道间的语义交互。而单独使用步进卷积 (Stride Convolution),虽然考虑了语义特征,却忽略了条纹噪声的方向先验。
2.3 挑战三:特征增强未能捕获全局列特征
现有的注意力机制或校正模块,虽然尝试建模列特征,但缺乏对“全局上下文”中“长程依赖” (long-range dependencies) 的显式建模,导致无法在全局范围内有效地区分条纹和场景的垂直结构。
3. 主要贡献点
ASCNet 的设计正是为了系统性地解决上述三个问题。其主要贡献可归纳为以下三点:
- 提出非对称采样 (DWT/PS) 架构,解决语义鸿沟问题。
- 核心差异:针对 DWT/IDWT 对称采样导致的语义鸿G沟,ASCNet 提出了“非对称”思想。它保留了 DWT 作为下采样器以利用其条纹分离能力,但用 Pixel Shuffle (PS) 替换了 IDWT 作为上采样器。
- 工作机理:PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何像 IDWT 那样的线性计算和先验假设(即哪些子带应该代表什么)。相反,PS 只是直接重新排列 (reorganizes) 低分辨率特征图的像素到高分辨率空间。
- 效果:这种“较弱的先验假设” 使得 PS 能够更好地衔接被 CNN 污染的特征,保持了稳定的列语义波动,从而实现了更准确、无语义偏差的图像重建。
- 设计 RHDWT 下采样器,融合方向先验与语义交互。
- 核心差异:针对传统 DWT 缺乏语义交互 和步进卷积缺乏方向先验 的问题,该工作提出了残差哈尔离散小波变换 (RHDWT)。
- 工作机理:RHDWT 是一个双分支并行结构。
- 模型驱动分支 (Model-driven):利用固定的哈尔小波 (HDWT) 滤波器分解特征,以编码条纹噪声的“方向先验知识”。
- 残差分支 (Residual):利用一个标准的 3 × 3 3 \times 3 3×3 步进卷积(步长为 2)来捕获“数据驱动的”跨信道语义信息。
- 效果:通过将两个分支的输出相加,RHDWT 实现了先验知识和数据驱动语义的有效补充,获得了比任何单一采样器都更丰富的特征表征。
- 设计 CNCM 模块,实现全局列特征校正。
- 核心差异:针对现有注意力机制缺乏全局长程依赖建模的问题,该工作设计了列非均匀性校正模块 (CNCM)。
- 工作机理:CNCM 的核心是 RCSSC 块 (Residual Column Spatial Self-Correction)。RCSSC 包含三个关键分支:
- 列注意力分支 (CAB):通过 ( H , 1 ) (H, 1) (H,1) 核的列平均池化和列最大池化,显式地加强列特征,以克服条纹噪声的列间差异。
- 空间注意力分支 (SAB):通过全局(信道维度)池化,增强关键区域的结构表征。
- 自校准分支 (SCB):通过“下采样-卷积-上采样”的操作,建立灵活的“远程依赖” (remote dependencies),聚合全局上下文信息,以微调全局均匀性。
- 效果:CNCM 通过整合列均匀性、空间相关性和自依赖性,能有效捕获全局上下文中的列特征,从而更好地区分条纹和背景。
3.4 架构总结 (Fig 3 & 4)
ASCNet 的架构图设计巧妙地解决了 Figure 1 和 2 中提出的“跨层级列语义鸿沟”问题:
- 问题:DWT/IDWT 对称采样中的 IDWT 上采样器,其固定的先验假设与 CNN 造成的特征“交叉污染” (Fig 1c, 1d) 相冲突,导致了“语义鸿沟” (Fig 2a)。
- 解决方案 (ASCNet 架构, Fig 3):
- 编码器 (RHDWT, Fig 3b):使用 RHDWT 双分支结构,在下采样时就融合了“条纹方向先验”(模型驱动分支)和“跨信道语义”(残差分支),获得了更鲁棒、信息更丰富的编码特征。
- 解码器 (PS, Fig 3a):抛弃 IDWT,采用“无语义偏差”的 Pixel Shuffle 作为上采样器。如图 2(b) 所示,PS 具有更强的语义衔接能力,能平滑地解码被污染的特征,从根本上避免了“语义鸿沟”的产生。
- 校正器 (CNCM/RCSSC, Fig 4):在网络的编码、解码和跳跃连接的每个关键节点都插入了强大的 CNCM 模块。该模块利用其三大分支(列注意 CAB、空间注意 SAB、自校准 SCB) 来捕获全局上下文和长程列依赖,从而能精确地区分条纹噪声和真实的场景垂直结构。
4. 方法细节 (架构与模块详解)
4.1 整体网络架构 (Figure 3)
Figure 3 是 ASCNet 的总架构图,它清晰地展示了数据如何在一个“非对称 U-Net” 中流动的。

- 输入与浅层特征:
- 输入是“Degraded image ( I D I_D ID)”。
- 首先经过两个卷积层,提取浅层特征 F 0 F_0 F0 和 F 1 F_1 F1。
- 编码器路径 (Encoder Path) (红色粗箭头):
- 这是一个包含 3 个阶段的下采样路径。
- 在每个阶段,特征图首先通过一个 RHDWT (Residual Haar Discrete Wavelet Transform) 模块 进行下采样(分辨率 H/2, W/2)。
- 紧接着,下采样后的特征被送入一个 CNCM (Column Non-uniformity Correction Module) 模块 进行深度的特征增强和校正。
- 解码器路径 (Decoder Path) (蓝色粗箭头):
- 这是一个包含 3 个阶段的上采样路径。
- 在每个阶段,特征图通过 Pixel Shuffle (PS) 模块 进行上采样(分辨率 2H, 2W),这构成了“非对称”的核心。
- 跳跃连接 (Skip Connection) (黑色箭头):
- ASCNet 采用了长跳跃连接 来融合编码器(下采样路径)和解码器(上采样路径)的特征。
- 融合机制:
- 编码器特征(来自 CNCM)和解码器特征(来自 PS)被拼接 (Concatenate)。
- 使用 3 × 3 3 \times 3 3×3 卷积来统一信道维度。
- 使用 1 × 1 1 \times 1 1×1 卷积将信道数减半。
- 融合后的特征再次被送入一个 CNCM 模块,以在融合了多尺度信息后,精细地分离条纹和纹理细节。
- 输出 (Output):
- 经过最后两个卷积层(增强高分辨率特征 F d F_d Fd) 和一个 1 × 1 1 \times 1 1×1 卷积 + Tanh 激活函数,网络输出的是残差条纹噪声 I N I_N IN。
- 最终,输出的噪声 I N I_N IN 与原始输入 I D I_D ID 相加 (Element-wise Addition),得到最终的去条纹“Output ( I O I_O IO)”。
4.2 RHDWT (Residual Haar Discrete Wavelet Transform)
RHDWT 被设计为 ASCNet 的下采样模块 (如图 3(b)),它旨在解决单一采样器的局限性。
-
理念:结合“模型驱动”的先验(Haar 小波的方向性)和“数据驱动”的语义(标准卷积的跨信道交互)。
-
机制:
对于输入特征 I i ∈ R C × H × W I_i \in \mathbb{R}^{C \times H \times W} Ii∈RC×H×W,RHDWT 并行处理两个分支:
- 模型驱动分支 (Model-driven Branch):
- 首先,使用 HDWT 算子 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅) 对 I i I_i Ii 进行分解。这会产生四个子带 S l l , S l h , S h l , S h h S_{ll}, S_{lh}, S_{hl}, S_{hh} Sll,Slh,Shl,Shh,它们在信道维度被拼接 (Concatenate)。
- 然后,使用一个 3 × 3 3 \times 3 3×3 卷积 f 3 × 3 δ f_{3\times3}^{\delta} f3×3δ(后跟 LeakyReLU)来压缩信道并进行初步的语义融合。
- 输出为: I m o d e l o u t = f 3 × 3 δ ( [ Φ ( I i ) ] ) I_{model}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})]) Imodelout=f3×3δ([Φ(Ii)])。
- 残差分支 (Residual Branch):
- 使用一个 3 × 3 3 \times 3 3×3、步长为 2 的卷积 f 3 × 3 s = 2 f_{3\times3}^{s=2} f3×3s=2 直接对 I i I_i Ii 进行下采样。
- 这个分支捕获了标准 CNN 擅长的空间和语义特征。
- 输出为: I r e s o u t = f 3 × 3 s = 2 ( I i ) I_{res}^{out} = f_{3\times3}^{s=2}(I_{i}) Iresout=f3×3s=2(Ii)。
- 模型驱动分支 (Model-driven Branch):
-
总结:
最终的输出 I R I_R IR 是两个分支的逐元素相加:
I R = I m o d e l o u t + I r e s o u t = f 3 × 3 δ ( [ Φ ( I i ) ] ) + f 3 × 3 s = 2 ( I i ) I_R = I_{model}^{out} + I_{res}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})]) + f_{3\times3}^{s=2}(I_{i}) IR=Imodelout+Iresout=f3×3δ([Φ(Ii)])+f3×3s=2(Ii)
这种并行结构 确保了条纹的方向先验(来自 Φ ( ⋅ ) \Phi(\cdot) Φ(⋅))和数据驱动的语义(来自 f 3 × 3 s = 2 f_{3\times3}^{s=2} f3×3s=2)被同时保留和增强。
4.3 CNCM (Column Non-uniformity Correction Module)
CNCM 是网络中的核心特征增强单元。它首先将多个 RCSSC 块嵌入到一个密集连接残差 (DCR) 结构中 (如图 3©),以增强信息流和特征重用。
-
理念:条纹噪声在列上具有一致性,但在全局上又具有非均匀性。因此,模块需要同时建模“列特性”、“空间结构”和“全局长程依赖”。
-
机制 (RCSSC 块, Fig 4):
RCSSC 块 (如图 4 所示) 接收输入 X ∈ R C × H × W X \in \mathbb{R}^{C \times H \times W} X∈RC×H×W,并并行通过三个分支:

-
CAB (Column Attention Branch):
-
目标:强化列特征,使同一列内的像素获得相似的校正系数。
-
流程:
a. 使用 ( H , 1 ) (H, 1) (H,1) 核的列平均池化 ( f c o l u m n A v g f_{column}^{Avg} fcolumnAvg) 和列最大池化 ( f c o l u m m M a x f_{columm}^{Max} fcolummMax) 分别作用于 X X X,得到两个 $ \mathbb{R}^{C \times 1 \times W}$ 的列描述子。
b. 拼接 (Concatenate) 二者得到 M c ∈ R 2 C × 1 × W M_c \in \mathbb{R}^{2C \times 1 \times W} Mc∈R2C×1×W。
c. M c M_c Mc 经过共享的 1x1 卷积 (CBL) 后,被拆分 (Split) 为两个分支 X a X_a Xa 和 X m X_m Xm。
d. X a X_a Xa 和 X m X_m Xm 分别经过各自的信道注意力模块(Conv+BN+ReLU+Conv+Sigmoid),生成列注意力权重。
e. 最终输出 C A CA CA 是输入 X X X 与这两个权重(广播后)的乘积。
-
创新:CAB 采用了双池化 (Avg+Max)、特征拆分和双重校正策略 (dual-correction),获得了更好的性能。
-
-
SAB (Spatial Attention Branch):
- 目标:增强关键区域的“空间相关性”。
- 流程:这是一个标准的空间注意力模块。它对输入 X X X 沿信道维度进行全局平均池化 ( f s p a t i a l A v g f_{spatial}^{Avg} fspatialAvg) 和最大池化 ( f s p a t i a l M a x f_{spatial}^{Max} fspatialMax)。将两者拼接后,通过一个 3 × 3 3 \times 3 3×3 卷积和 Sigmoid 激活函数 f 3 × 3 s f_{3\times3}^{s} f3×3s 生成空间掩码。
- 输出为: S A = f 3 × 3 s ( [ f s p a t i a l A v g ( X ) , f s p a t i a l M a x ( X ) ] ) ⊙ X SA = f_{3\times3}^{s}([f_{spatial}^{Avg}(X), f_{spatial}^{Max}(X)]) \odot X SA=f3×3s([fspatialAvg(X),fspatialMax(X)])⊙X。
-
SCB (Self-Calibrated Branch):
-
目标:建立“长程依赖” (long-range dependencies),聚合全局上下文信息。
-
流程:
a. 使用 2 × 2 2 \times 2 2×2 平均池化 H 2 ( ⋅ ) \mathcal{H}_2(\cdot) H2(⋅) 对 X X X 进行下采样。
b. 通过卷积 c o n v ( ⋅ ) conv(\cdot) conv(⋅) 提取上下文特征。
c. 使用双线性插值 B 2 ( ⋅ ) \mathcal{B}_2(\cdot) B2(⋅) 上采样回原始分辨率。
d. 将结果与 X X X 相加(残差连接),并通过 Sigmoid 激活 δ s \delta_s δs 生成调制权重 S C SC SC。
-
输出为: S C = δ s ( X + B 2 ( c o n v ( H 2 ( X ) ) ) ) SC = \delta_s(X + \mathcal{B}_2(conv(\mathcal{H}_2(X)))) SC=δs(X+B2(conv(H2(X))))。
-
-
-
总结 (RCSSC):
三个分支的输出被融合。CAB 和 SAB 的输出被拼接并通过 1 × 1 1 \times 1 1×1 卷积 f 1 × 1 f_{1\times1} f1×1 融合,然后与 SCB 的输出(作为调制器)进行 Hadamard 乘积 ( ⊙ \odot ⊙ )。最后,通过残差连接加上原始输入 X X X:
C o = f 1 × 1 ( [ S A , C A ] ) ⊙ S C + X C_o = f_{1\times1}([SA, CA]) \odot SC + X Co=f1×1([SA,CA])⊙SC+X
这个设计确保了模块能同时关注列、空间和全局上下文三个维度的信息。
5. 即插即用模块的作用、适用场景和应用
ASCNet 中的 RHDWT 和 CNCM (RCSSC) 模块具有很强的通用性,可以作为即插即用 (Plug-and-Play) 模块应用于其他网络和任务。
5.1 RHDWT (下采样模块)
-
作用:
替代标准的下采样层(如 3 × 3 3 \times 3 3×3 步进卷积或 Max Pooling)。
-
适用场景:
- 具有强方向性先验的任务:当处理的图像或特征中包含已知的、固定的方向性结构(如条纹、雨丝、扫描线、Moiré 图案)时。
- 需要保留先验和语义的任务:当既需要利用固定的物理先验(如小波分解)又需要学习数据驱动的深度语义特征时。
-
具体应用:
- 图像恢复:
- 图像去雨 (Deraining):雨丝具有明显的方向性,RHDWT 可以融合雨丝的方向先验和场景的语义。
- 去摩尔纹 (Demoiréing):Moiré 图案也常具有固定的高频方向性。
- 去隔行扫描线 (Deinterlacing):处理隔行扫描视频产生的水平线伪影。
- 特征提取:
- 语义分割/目标检测:用于处理具有高度结构化方向的场景,如城市场景(建筑物的垂直边缘、道路的水平边缘)或遥感图像中的农田。
- 图像恢复:
5.2 CNCM / RCSSC (特征增强模块)
-
作用:
替代标准的特征增强块(如 ResBlock、SE-Net 模块、CBAM)。
-
适用场景:
- 各向异性 (Anisotropic) 特征建模:当特征在某一维度(如列或行)上的相关性远大于其他维度时。CNCM 的 CAB 分支 专门用于处理这种“列相关性”。
- 需要全局上下文校正的任务:当局部感受野不足以区分噪声/伪影和真实结构,需要长程依赖 和全局信息 进行校正时(由 SCB 和 SAB 提供)。
- 传感器非均匀性校正:适用于校正由传感器(如 FPA)硬件特性引起的、具有空间相关性的固定模式噪声。
-
具体应用:
- 图像恢复:
- 红外图像去条纹 (Destriping):(本文应用)。
- 遥感图像校正:校正遥感图像中的传感器条带噪声。
- 医疗影像伪影去除:去除 CT 或 MRI 中的环状伪影或运动伪影(如果它们表现出某种空间相关性)。
- 下游视觉任务(作为预处理或网络内部模块):
- 红外弱小目标检测 (IRSTD):CNCM 能有效抑制条纹噪声,提高目标的信噪比 (SNR),从而提升下游检测器的检测概率和 F-measure。
- 低光照图像增强:低光照下传感器噪声(包括列噪声)更明显,CNCM 可用于在增强亮度的同时抑制噪声。
- 图像恢复:
到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。
6 获取更多高质量论文及即插即用代码关注 【AI即插即用】
更多推荐

所有评论(0)