SFFNet:融合频域和空间域特征提升遥感语义分割效果
发表时间:2024本文提出了一种空间和频域融合网络(SFFNet)框架,旨在充分利用空间信息进行分割,并解决遥感图像分割中处理显著灰度变化区域的挑战。: 使用空间方法提取特征,获得具有充足空间细节和语义信息的特征。:将这些特征映射到空间和频域。在频域映射中,引入了小波变换特征分解器(WTFD)结构,利用Haar小波变换将特征分解为低频和高频成分,并与空间特征结合。为了弥合频域和空间特征之间的语义差

![]()
代码:SFFNet
发表时间:2024
本文提出了一种空间和频域融合网络(SFFNet)框架,旨在充分利用空间信息进行分割,并解决遥感图像分割中处理显著灰度变化区域的挑战。SFFNet采用两阶段网络设计:
-
第一阶段: 使用空间方法提取特征,获得具有充足空间细节和语义信息的特征。
-
第二阶段:将这些特征映射到空间和频域。在频域映射中,引入了小波变换特征分解器(WTFD)结构,利用Haar小波变换将特征分解为低频和高频成分,并与空间特征结合。
为了弥合频域和空间特征之间的语义差距,促进不同表示域特征的有效组合,设计了多尺度双表示对齐滤波器(MDAF)。该结构利用多尺度卷积和双重交叉注意力机制。
整体框架如图:

![]()
第一阶段进行空间特征提取,第二阶段进行特征映射,之后将频域和空间域的特征对齐融合,最后将融合后的特征进行解码得到分割结果。
1.特征提取
在特征提取时,使用ConvNext作为backbone进行空间特征提取。ConvNeXt是一种计算机视觉模型,由前Facebook的研究人员在2022年提出,ConvNeXt设计结合了Transformer模型中的设计理念,如大 卷积核、层归一化位置、 MLP结构等,来升级传统的卷积神经网络架构,从而在不牺牲效率的情况下,达到或超越基于Transformer的模型的性能。
2.特征映射

![]()

![]()
在特征映射阶段,使用了三个并行的分支,即全局分支(a),频域分支(b),局部分支(c)
2.1 全局分支

![]()
全局分支的目的是进行全局特征提取,在这里借鉴了swin transformer和轴注意力的思想。将特征输入至全局分支,首先经过一个3*3的卷积,再经过两倍下采样,高宽变为原来的1/2,这样做是为了后面进行全局特征的提取减少计算量。之后的W-Trans block是计算窗口内的注意力,这里借鉴了swin transformer的思想,将一张特征图划分为若干窗口,在每个窗口内进行自注意的计算。为了实现全局注意力,这里采用了条形卷积,实现不同窗口的信息的交互,进而获取全局特征。

编辑
2.2 频域分支

![]()
在频域分支中,将特征图使用Haar小波变换将空间特征分解为高频和低频分量。其中高频分量表示边缘信息,低频分量表示全局形状信息。在得到了三种高频,和一种低频分量后,将三种高频分量进行concat拼接,形成高频特征,低频单独经过一个1*1的卷积,形成低频特征。
2.3 局部分支

![]()
局部分支旨在提取局部多尺度特征,这里本文作者使用了现有的SppCSPC模块,经过不同大小的池化(55,99, 13*13)之后,将它们进行拼接,形成多尺度特征,使其模型增加对不同目标大小的适应,提高模型泛化性。
3.频域和空间域的特征对齐融合

![]()
通过多尺度垂直卷积和双交叉注意机制实现频域特征和空间特征之间的跨尺度语义对齐和特征选择。首先,使用多尺度垂直卷积将频域和空间域特征映射到统一的尺度。然后,利用双交叉注意机制,通过查询对应的键值对来计算注意力权重,并进行特征加权,最终实现特征选择。
4.实验
4.1消融实验

编辑
4.2 对比模型

如果有想发表论文, 但是有疑惑的小伙伴,可以找我,本人已在这个模型的基础上进行了创新,并实现了大幅涨点,有需要的可以找我
更多推荐

所有评论(0)