论文名称:ASCNet: Asymmetric Sampling Correction Network for Infrared Image Destriping

论文原文 (Paper)https://arxiv.org/abs/2401.15578
代码 (code)https://github.com/xdFai/ASCNet


哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

本论文的完整复现代码(即插即用版)已更新至专栏

即插即用系列(代码实践) | TGRS 2025 ASCNet:残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度

ASCNet: 论文精读

1. 核心思想

该工作提出了一种名为 ASCNet (Asymmetric Sampling Correction Network) 的新型红外图像去条纹方法。其核心思想在于构建一个非对称采样的 U-Net 架构,以解决传统基于小波的 U-Net 中存在的“跨层级列语义鸿沟”问题。ASCNet 创新性地使用残差哈尔离散小波变换 (RHDWT) 作为下采样器,以融合条纹的方向先验和数据驱动的语义特征;同时,它抛弃了传统的逆小波变换 (IDWT),转而采用像素重组 (Pixel Shuffle, PS) 作为上采样器,以实现无语义偏差的图像重建。网络中还嵌入了列非均匀性校正模块 (CNCM),用于捕获全局的列相关性和长程依赖,从而精确地分离条纹噪声和背景细节。

2. 背景与动机

红外 (IR) 成像系统广泛应用于监控、检测等领域,但其焦平面阵列 (FPA) 的非均匀响应和列信号读出机制,极易引入垂直的条纹噪声。这种噪声严重降低了图像质量,并干扰了下游任务(如红外弱小目标检测, IRSTD)的性能。

现有的深度学习方法,特别是 U-Net 架构,在去条纹任务上取得了进展。其中,一些工作尝试利用离散小波变换 (DWT) 作为下采样器,因为它能将条纹噪声的能量(主要在水平梯度上)有效聚合到低频 ( P l l P_{ll} Pll) 和水平高频 ( P h l P_{hl} Phl) 子带中。

然而,该工作指出了现有方法的三个核心挑战 (Motivation)

2.1 挑战一:IDWT 导致的跨层级列语义鸿沟

这是本文的核心动机。Figure 1 和 Figure 2 共同阐释了为什么传统的对称小波 U-Net (DWT/IDWT) 架构在去条纹任务上会失败。

  • Figure 1:问题的根源——“交叉污染” (Crosstalk)
    • Figure 1© 展示了当一个特征图 S(而非原始图像 P)被送入 DWT 时会发生什么。DWT 确实将条纹噪声(主要存在于 S 中)聚合到了低频子带 ( S l l S_{ll} Sll) 和水平子带 ( S h l S_{hl} Shl) 中。
    • 然而,在 U-Net 的编码器中,这些子带会被拼接 (Concatenate) 并送入一系列标准的 CNN 卷积层 ( f s ( ⋅ ) f_s(\cdot) fs() ) 进行深度特征提取,得到 K c K_c Kc
    • 关键问题在于:CNN 的卷积核具有“信道间信息交互” (channel-wise information interaction) 的特性。如 Figure 1(d) 的可视化所示,这种交互导致了**“交叉污染”**:原本干净的垂直子带 ( K l h K_{lh} Klh) 和对角子带 ( K h h K_{hh} Khh) 被 S l l S_{ll} Sll S h l S_{hl} Shl 中的条纹噪声“重新污染”了。
  • Figure 2(a):问题的显现——“跨层级列语义鸿沟”
    • Figure 2(a) 展示了对称采样 (Symmetric Sampling: DWT/IDWT) 的解码过程。解码器使用逆小波变换 (IDWT) 作为上采样器。
    • IDWT 的工作依赖一个固定的先验假设:它假设输入的 K c K_c Kc 中,各个子带 ( K l l , K l h , K h l , K h h K_{ll}, K_{lh}, K_{hl}, K_{hh} Kll,Klh,Khl,Khh) 完美对应着低频、垂直、水平、对角信息。
    • 但正如 Figure 1(d) 所示,这个假设已经不成立了( K l h K_{lh} Klh K h h K_{hh} Khh 已被污染)。强行使用 IDWT 这个“错误的解码器”来重建特征,会导致严重的“跨层级列语义鸿沟” (cross-level column semantic gap)。
    • 如图 2(a) 中的 CMRC (列均值响应曲线) 所示,在 IDWT 上采样(红线变为黑线)后,特征的列响应出现了剧烈且错误的波动(红色框高亮处),导致重建图像偏离了真实的列分布。
  • Figure 2(b):解决方案的启示——非对称采样 (Asymmetric Sampling)
    • Figure 2(b) 展示了本文提出的非对称采样 (DWT/PS) 所依赖的 Pixel Shuffle (PS) 像素重组。
    • 核心优势:PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何固定的先验假设,也不进行复杂的线性计算。它只是简单地将低分辨率特征图的像素“重新排列” (reorganizes) 到高分辨率空间中。
    • 效果对比:如图 2(b) 的 CMRC 所示,PS 的上采样过程(红线变为黑线)非常平滑,其列语义波动更加稳定。这证明了 PS 在解码被污染的条纹特征时,具有“更优越的语义衔接能力” (superior semantic articulation),从而避免了语义鸿沟。
2.2 挑战二:独立下采样分支的表征能力不足

单独使用 DWT 作为下采样器,虽然引入了方向先验,但它只在空间维度采样,缺乏信道间的语义交互。而单独使用步进卷积 (Stride Convolution),虽然考虑了语义特征,却忽略了条纹噪声的方向先验。

2.3 挑战三:特征增强未能捕获全局列特征

现有的注意力机制或校正模块,虽然尝试建模列特征,但缺乏对“全局上下文”中“长程依赖” (long-range dependencies) 的显式建模,导致无法在全局范围内有效地区分条纹和场景的垂直结构。

3. 主要贡献点

ASCNet 的设计正是为了系统性地解决上述三个问题。其主要贡献可归纳为以下三点:

  1. 提出非对称采样 (DWT/PS) 架构,解决语义鸿沟问题
    • 核心差异:针对 DWT/IDWT 对称采样导致的语义鸿G沟,ASCNet 提出了“非对称”思想。它保留了 DWT 作为下采样器以利用其条纹分离能力,但用 Pixel Shuffle (PS) 替换了 IDWT 作为上采样器。
    • 工作机理:PS 是一种“无语义偏差” (semantic-bias-free) 的上采样器。它不依赖任何像 IDWT 那样的线性计算和先验假设(即哪些子带应该代表什么)。相反,PS 只是直接重新排列 (reorganizes) 低分辨率特征图的像素到高分辨率空间。
    • 效果:这种“较弱的先验假设” 使得 PS 能够更好地衔接被 CNN 污染的特征,保持了稳定的列语义波动,从而实现了更准确、无语义偏差的图像重建。
  2. 设计 RHDWT 下采样器,融合方向先验与语义交互
    • 核心差异:针对传统 DWT 缺乏语义交互 和步进卷积缺乏方向先验 的问题,该工作提出了残差哈尔离散小波变换 (RHDWT)。
    • 工作机理:RHDWT 是一个双分支并行结构。
      1. 模型驱动分支 (Model-driven):利用固定的哈尔小波 (HDWT) 滤波器分解特征,以编码条纹噪声的“方向先验知识”。
      2. 残差分支 (Residual):利用一个标准的 3 × 3 3 \times 3 3×3 步进卷积(步长为 2)来捕获“数据驱动的”跨信道语义信息。
    • 效果:通过将两个分支的输出相加,RHDWT 实现了先验知识和数据驱动语义的有效补充,获得了比任何单一采样器都更丰富的特征表征。
  3. 设计 CNCM 模块,实现全局列特征校正
    • 核心差异:针对现有注意力机制缺乏全局长程依赖建模的问题,该工作设计了列非均匀性校正模块 (CNCM)。
    • 工作机理:CNCM 的核心是 RCSSC 块 (Residual Column Spatial Self-Correction)。RCSSC 包含三个关键分支:
      1. 列注意力分支 (CAB):通过 ( H , 1 ) (H, 1) (H,1) 核的列平均池化和列最大池化,显式地加强列特征,以克服条纹噪声的列间差异。
      2. 空间注意力分支 (SAB):通过全局(信道维度)池化,增强关键区域的结构表征。
      3. 自校准分支 (SCB):通过“下采样-卷积-上采样”的操作,建立灵活的“远程依赖” (remote dependencies),聚合全局上下文信息,以微调全局均匀性。
    • 效果:CNCM 通过整合列均匀性、空间相关性和自依赖性,能有效捕获全局上下文中的列特征,从而更好地区分条纹和背景。
3.4 架构总结 (Fig 3 & 4)

ASCNet 的架构图设计巧妙地解决了 Figure 1 和 2 中提出的“跨层级列语义鸿沟”问题:

  1. 问题:DWT/IDWT 对称采样中的 IDWT 上采样器,其固定的先验假设与 CNN 造成的特征“交叉污染” (Fig 1c, 1d) 相冲突,导致了“语义鸿沟” (Fig 2a)。
  2. 解决方案 (ASCNet 架构, Fig 3)
    • 编码器 (RHDWT, Fig 3b):使用 RHDWT 双分支结构,在下采样时就融合了“条纹方向先验”(模型驱动分支)和“跨信道语义”(残差分支),获得了更鲁棒、信息更丰富的编码特征。
    • 解码器 (PS, Fig 3a):抛弃 IDWT,采用“无语义偏差”的 Pixel Shuffle 作为上采样器。如图 2(b) 所示,PS 具有更强的语义衔接能力,能平滑地解码被污染的特征,从根本上避免了“语义鸿沟”的产生。
    • 校正器 (CNCM/RCSSC, Fig 4):在网络的编码、解码和跳跃连接的每个关键节点都插入了强大的 CNCM 模块。该模块利用其三大分支(列注意 CAB、空间注意 SAB、自校准 SCB) 来捕获全局上下文和长程列依赖,从而能精确地区分条纹噪声和真实的场景垂直结构。

4. 方法细节 (架构与模块详解)

4.1 整体网络架构 (Figure 3)

Figure 3 是 ASCNet 的总架构图,它清晰地展示了数据如何在一个“非对称 U-Net” 中流动的。

结构图

  1. 输入与浅层特征
    • 输入是“Degraded image ( I D I_D ID)”。
    • 首先经过两个卷积层,提取浅层特征 F 0 F_0 F0 F 1 F_1 F1
  2. 编码器路径 (Encoder Path) (红色粗箭头)
    • 这是一个包含 3 个阶段的下采样路径。
    • 在每个阶段,特征图首先通过一个 RHDWT (Residual Haar Discrete Wavelet Transform) 模块 进行下采样(分辨率 H/2, W/2)。
    • 紧接着,下采样后的特征被送入一个 CNCM (Column Non-uniformity Correction Module) 模块 进行深度的特征增强和校正。
  3. 解码器路径 (Decoder Path) (蓝色粗箭头)
    • 这是一个包含 3 个阶段的上采样路径。
    • 在每个阶段,特征图通过 Pixel Shuffle (PS) 模块 进行上采样(分辨率 2H, 2W),这构成了“非对称”的核心。
  4. 跳跃连接 (Skip Connection) (黑色箭头)
    • ASCNet 采用了长跳跃连接 来融合编码器(下采样路径)和解码器(上采样路径)的特征。
    • 融合机制
      1. 编码器特征(来自 CNCM)和解码器特征(来自 PS)被拼接 (Concatenate)
      2. 使用 3 × 3 3 \times 3 3×3 卷积来统一信道维度。
      3. 使用 1 × 1 1 \times 1 1×1 卷积将信道数减半。
      4. 融合后的特征再次被送入一个 CNCM 模块,以在融合了多尺度信息后,精细地分离条纹和纹理细节。
  5. 输出 (Output)
    • 经过最后两个卷积层(增强高分辨率特征 F d F_d Fd) 和一个 1 × 1 1 \times 1 1×1 卷积 + Tanh 激活函数,网络输出的是残差条纹噪声 I N I_N IN
    • 最终,输出的噪声 I N I_N IN 与原始输入 I D I_D ID 相加 (Element-wise Addition),得到最终的去条纹“Output ( I O I_O IO)”。
4.2 RHDWT (Residual Haar Discrete Wavelet Transform)

RHDWT 被设计为 ASCNet 的下采样模块 (如图 3(b)),它旨在解决单一采样器的局限性。

  • 理念:结合“模型驱动”的先验(Haar 小波的方向性)和“数据驱动”的语义(标准卷积的跨信道交互)。

  • 机制:

    对于输入特征 I i ∈ R C × H × W I_i \in \mathbb{R}^{C \times H \times W} IiRC×H×W,RHDWT 并行处理两个分支:

    1. 模型驱动分支 (Model-driven Branch)
      • 首先,使用 HDWT 算子 Φ ( ⋅ ) \Phi(\cdot) Φ() I i I_i Ii 进行分解。这会产生四个子带 S l l , S l h , S h l , S h h S_{ll}, S_{lh}, S_{hl}, S_{hh} Sll,Slh,Shl,Shh,它们在信道维度被拼接 (Concatenate)。
      • 然后,使用一个 3 × 3 3 \times 3 3×3 卷积 f 3 × 3 δ f_{3\times3}^{\delta} f3×3δ(后跟 LeakyReLU)来压缩信道并进行初步的语义融合。
      • 输出为: I m o d e l o u t = f 3 × 3 δ ( [ Φ ( I i ) ] ) I_{model}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})]) Imodelout=f3×3δ([Φ(Ii)])
    2. 残差分支 (Residual Branch)
      • 使用一个 3 × 3 3 \times 3 3×3、步长为 2 的卷积 f 3 × 3 s = 2 f_{3\times3}^{s=2} f3×3s=2 直接对 I i I_i Ii 进行下采样。
      • 这个分支捕获了标准 CNN 擅长的空间和语义特征。
      • 输出为: I r e s o u t = f 3 × 3 s = 2 ( I i ) I_{res}^{out} = f_{3\times3}^{s=2}(I_{i}) Iresout=f3×3s=2(Ii)
  • 总结:

    最终的输出 I R I_R IR 是两个分支的逐元素相加:

    I R = I m o d e l o u t + I r e s o u t = f 3 × 3 δ ( [ Φ ( I i ) ] ) + f 3 × 3 s = 2 ( I i ) I_R = I_{model}^{out} + I_{res}^{out} = f_{3\times3}^{\delta}([\Phi(I_{i})]) + f_{3\times3}^{s=2}(I_{i}) IR=Imodelout+Iresout=f3×3δ([Φ(Ii)])+f3×3s=2(Ii)

    这种并行结构 确保了条纹的方向先验(来自 Φ ( ⋅ ) \Phi(\cdot) Φ())和数据驱动的语义(来自 f 3 × 3 s = 2 f_{3\times3}^{s=2} f3×3s=2)被同时保留和增强。

4.3 CNCM (Column Non-uniformity Correction Module)

CNCM 是网络中的核心特征增强单元。它首先将多个 RCSSC 块嵌入到一个密集连接残差 (DCR) 结构中 (如图 3©),以增强信息流和特征重用。

  • 理念:条纹噪声在列上具有一致性,但在全局上又具有非均匀性。因此,模块需要同时建模“列特性”、“空间结构”和“全局长程依赖”。

  • 机制 (RCSSC 块, Fig 4):

    RCSSC 块 (如图 4 所示) 接收输入 X ∈ R C × H × W X \in \mathbb{R}^{C \times H \times W} XRC×H×W,并并行通过三个分支:

    image-20251109091214609

    1. CAB (Column Attention Branch)

      • 目标:强化列特征,使同一列内的像素获得相似的校正系数。

      • 流程:

        a. 使用 ( H , 1 ) (H, 1) (H,1) 核的列平均池化 ( f c o l u m n A v g f_{column}^{Avg} fcolumnAvg) 和列最大池化 ( f c o l u m m M a x f_{columm}^{Max} fcolummMax) 分别作用于 X X X,得到两个 $ \mathbb{R}^{C \times 1 \times W}$ 的列描述子。

        b. 拼接 (Concatenate) 二者得到 M c ∈ R 2 C × 1 × W M_c \in \mathbb{R}^{2C \times 1 \times W} McR2C×1×W

        c. M c M_c Mc 经过共享的 1x1 卷积 (CBL) 后,被拆分 (Split) 为两个分支 X a X_a Xa X m X_m Xm

        d. X a X_a Xa X m X_m Xm 分别经过各自的信道注意力模块(Conv+BN+ReLU+Conv+Sigmoid),生成列注意力权重。

        e. 最终输出 C A CA CA 是输入 X X X 与这两个权重(广播后)的乘积。

      • 创新:CAB 采用了双池化 (Avg+Max)、特征拆分和双重校正策略 (dual-correction),获得了更好的性能。

    2. SAB (Spatial Attention Branch)

      • 目标:增强关键区域的“空间相关性”。
      • 流程:这是一个标准的空间注意力模块。它对输入 X X X 沿信道维度进行全局平均池化 ( f s p a t i a l A v g f_{spatial}^{Avg} fspatialAvg) 和最大池化 ( f s p a t i a l M a x f_{spatial}^{Max} fspatialMax)。将两者拼接后,通过一个 3 × 3 3 \times 3 3×3 卷积和 Sigmoid 激活函数 f 3 × 3 s f_{3\times3}^{s} f3×3s 生成空间掩码。
      • 输出为: S A = f 3 × 3 s ( [ f s p a t i a l A v g ( X ) , f s p a t i a l M a x ( X ) ] ) ⊙ X SA = f_{3\times3}^{s}([f_{spatial}^{Avg}(X), f_{spatial}^{Max}(X)]) \odot X SA=f3×3s([fspatialAvg(X),fspatialMax(X)])X
    3. SCB (Self-Calibrated Branch)

      • 目标:建立“长程依赖” (long-range dependencies),聚合全局上下文信息。

      • 流程:

        a. 使用 2 × 2 2 \times 2 2×2 平均池化 H 2 ( ⋅ ) \mathcal{H}_2(\cdot) H2() X X X 进行下采样。

        b. 通过卷积 c o n v ( ⋅ ) conv(\cdot) conv() 提取上下文特征。

        c. 使用双线性插值 B 2 ( ⋅ ) \mathcal{B}_2(\cdot) B2() 上采样回原始分辨率。

        d. 将结果与 X X X 相加(残差连接),并通过 Sigmoid 激活 δ s \delta_s δs 生成调制权重 S C SC SC

      • 输出为: S C = δ s ( X + B 2 ( c o n v ( H 2 ( X ) ) ) ) SC = \delta_s(X + \mathcal{B}_2(conv(\mathcal{H}_2(X)))) SC=δs(X+B2(conv(H2(X))))

  • 总结 (RCSSC):

    三个分支的输出被融合。CAB 和 SAB 的输出被拼接并通过 1 × 1 1 \times 1 1×1 卷积 f 1 × 1 f_{1\times1} f1×1 融合,然后与 SCB 的输出(作为调制器)进行 Hadamard 乘积 ( ⊙ \odot )。最后,通过残差连接加上原始输入 X X X

    C o = f 1 × 1 ( [ S A , C A ] ) ⊙ S C + X C_o = f_{1\times1}([SA, CA]) \odot SC + X Co=f1×1([SA,CA])SC+X

    这个设计确保了模块能同时关注列、空间和全局上下文三个维度的信息。

5. 即插即用模块的作用、适用场景和应用

ASCNet 中的 RHDWT 和 CNCM (RCSSC) 模块具有很强的通用性,可以作为即插即用 (Plug-and-Play) 模块应用于其他网络和任务。

5.1 RHDWT (下采样模块)
  • 作用:

    替代标准的下采样层(如 3 × 3 3 \times 3 3×3 步进卷积或 Max Pooling)。

  • 适用场景

    1. 具有强方向性先验的任务:当处理的图像或特征中包含已知的、固定的方向性结构(如条纹、雨丝、扫描线、Moiré 图案)时。
    2. 需要保留先验和语义的任务:当既需要利用固定的物理先验(如小波分解)又需要学习数据驱动的深度语义特征时。
  • 具体应用

    1. 图像恢复
      • 图像去雨 (Deraining):雨丝具有明显的方向性,RHDWT 可以融合雨丝的方向先验和场景的语义。
      • 去摩尔纹 (Demoiréing):Moiré 图案也常具有固定的高频方向性。
      • 去隔行扫描线 (Deinterlacing):处理隔行扫描视频产生的水平线伪影。
    2. 特征提取
      • 语义分割/目标检测:用于处理具有高度结构化方向的场景,如城市场景(建筑物的垂直边缘、道路的水平边缘)或遥感图像中的农田。
5.2 CNCM / RCSSC (特征增强模块)
  • 作用:

    替代标准的特征增强块(如 ResBlock、SE-Net 模块、CBAM)。

  • 适用场景

    1. 各向异性 (Anisotropic) 特征建模:当特征在某一维度(如列或行)上的相关性远大于其他维度时。CNCM 的 CAB 分支 专门用于处理这种“列相关性”。
    2. 需要全局上下文校正的任务:当局部感受野不足以区分噪声/伪影和真实结构,需要长程依赖 和全局信息 进行校正时(由 SCB 和 SAB 提供)。
    3. 传感器非均匀性校正:适用于校正由传感器(如 FPA)硬件特性引起的、具有空间相关性的固定模式噪声。
  • 具体应用

    1. 图像恢复
      • 红外图像去条纹 (Destriping):(本文应用)。
      • 遥感图像校正:校正遥感图像中的传感器条带噪声。
      • 医疗影像伪影去除:去除 CT 或 MRI 中的环状伪影或运动伪影(如果它们表现出某种空间相关性)。
    2. 下游视觉任务(作为预处理或网络内部模块)
      • 红外弱小目标检测 (IRSTD):CNCM 能有效抑制条纹噪声,提高目标的信噪比 (SNR),从而提升下游检测器的检测概率和 F-measure。
      • 低光照图像增强:低光照下传感器噪声(包括列噪声)更明显,CNCM 可用于在增强亮度的同时抑制噪声。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

6 获取更多高质量论文及即插即用代码关注 【AI即插即用】

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐