语义分割(Semantic Segmentation)【截至2025年4月】
(Semantic Segmentation)是计算机视觉中的核心任务,旨在为图像中的每个像素分配一个语义类别标签,实现像素级别的语义理解。
语义分割详解与经典模型演进(截至2025年4月)
1. 语义分割的定义与核心目标
语义分割(Semantic Segmentation)是计算机视觉中的核心任务,旨在为图像中的每个像素分配一个语义类别标签,实现像素级别的语义理解。其特点包括:
- 像素级分类:输出与输入图像同分辨率的掩码(Mask),不区分同类实例(与实例分割不同)。
- 应用领域:自动驾驶(道路、车辆识别)、医学影像(器官/肿瘤分割)、农业(农田监测)、遥感(卫星图像分析)等。
2. 经典模型演进及特征
(1)早期奠基模型(2014-2016)
-
FCN(Fully Convolutional Networks,2014)
- 核心思想:首次用全卷积网络替代传统CNN的全连接层,支持任意尺寸输入,通过反卷积恢复分辨率。
- 技术特点:
- 引入跳跃连接(Skip Connection)融合浅层细节与深层语义(如FCN-8s)。
- 端到端训练,输出像素级类别概率图。
- 影响:奠定编码器-解码器结构基础,开启深度学习语义分割时代。
-
SegNet(2015)
- 核心思想:改进FCN的上采样方式,记录池化索引(Pooling Indices)以提升边缘精度。
- 技术特点:
- 解码器使用反池化(Unpooling)恢复细节,减少参数计算量。
- 轻量化设计,适用于实时场景(如自动驾驶)。
- 局限:未融合多尺度特征,复杂场景分割效果有限。
-
U-Net(2015)
- 核心思想:医学影像分割专用,对称编码器-解码器结构,通过跳跃连接融合多级特征。
- 技术特点:
- 数据增强策略(弹性形变)适应小样本训练。
- 解码器通过拼接(Concatenation)保留细节信息。
- 影响:成为医学影像分割标杆,泛化至工业检测等领域。
(2)多尺度与上下文建模(2016-2018)
-
DeepLab系列(2016-2018)
- DeepLab v1(2016):
- 引入**空洞卷积(Dilated Convolution)**扩大感受野,减少下采样信息丢失。
- DeepLab v2(2017):
- 提出空洞空间金字塔池化(ASPP),融合多尺度上下文特征。
- DeepLab v3(2018):
- 优化ASPP模块,引入全局平均池化增强全局上下文。
- DeepLab v3+(2018):
- 结合编码器-解码器结构,使用Xception主干网络提升效率。
- DeepLab v1(2016):
-
PSPNet(Pyramid Scene Parsing Network,2017)
- 核心思想:通过**金字塔池化模块(Pyramid Pooling Module)**捕获多尺度全局上下文。
- 技术特点:
- 将特征图分割为不同子区域池化,级联后增强语义信息。
- 提升大尺寸物体分割精度(如天空、建筑)。
-
RefineNet(2017)
- 核心思想:针对高分辨率图像,通过多路径精细化网络融合多层次特征。
- 技术特点:
- 长程残差连接(Long-range Residual Connections)保留细节。
- 链式残差池化(CRP)增强上下文建模。
(3)高效与轻量化趋势(2018-2020)
-
UNet++(2018)
- 核心思想:改进U-Net,引入密集跳跃连接(Dense Skip Connection)和嵌套结构。
- 技术特点:
- 多级特征重组,增强信息传递效率。
- 动态深度监督提升小样本泛化能力。
-
BiSeNet(Bilateral Segmentation Network,2018)
- 核心思想:双分支网络(空间路径+上下文路径)平衡细节与速度。
- 技术特点:
- 空间路径保留高频细节,上下文路径快速提取语义。
- 实时分割(如30 FPS在Cityscapes)。
-
FastFCN(2019)
- 核心思想:用联合金字塔上采样(JPU)替代传统反卷积,加速推理。
- 技术特点:
- 减少计算量,保持高分辨率特征。
(4)注意力机制与Transformer融合(2020-2025)
-
DANet(Dual Attention Network,2020)
- 核心思想:引入通道注意力与空间注意力模块,增强特征表达。
- 技术特点:
- 自适应融合全局依赖关系,提升复杂场景分割效果。
-
SegFormer(2021)
- 核心思想:基于Vision Transformer(ViT)的轻量级分割模型。
- 技术特点:
- 层次化Transformer编码器+MLP解码器。
- 无需位置编码,支持多尺度特征融合。
-
SegNeXt(2022)
- 核心思想:结合CNN与注意力机制,设计多尺度卷积注意力(MSCA)。
- 技术特点:
- 大卷积核分解提升感受野,并行分支捕获多尺度信息。
- 在PASCAL VOC、Cityscapes等数据集上刷新SOTA。
3. 关键技术与趋势总结
- 多尺度融合:从ASPP到金字塔池化,再到MSCA,模型逐步增强多尺度建模能力。
- 轻量化设计:BiSeNet、FastFCN等推动实时分割落地。
- 注意力与Transformer:DANet、SegFormer、SegNeXt等结合注意力机制,提升自适应特征选择。
- 3D与弱监督:向三维医学影像(如LiDAR点云分割)和弱标注数据扩展。
4. 经典模型对比表
| 模型 | 提出时间 | 核心贡献 | 典型应用场景 |
|---|---|---|---|
| FCN | 2014 | 全卷积网络,端到端分割 | 通用场景 |
| U-Net | 2015 | 跳跃连接,医学影像专用 | 细胞/肿瘤分割 |
| DeepLab | 2016-2018 | 空洞卷积与ASPP多尺度融合 | 城市场景解析 |
| PSPNet | 2017 | 金字塔池化全局上下文 | 遥感图像分析 |
| SegNeXt | 2022 | 多尺度卷积注意力 | 高精度自动驾驶 |
5. 未来方向
- 多模态融合:结合文本、深度信息增强分割精度。
- 边缘计算优化:轻量化模型部署至移动端(如手机AR实时分割)。
- 弱监督学习:减少对像素级标注的依赖,提升数据利用效率。
语义分割技术通过不断迭代,已成为自动驾驶、医疗诊断等领域的核心工具,未来将在精度与效率的平衡中持续突破。
参考资料:
[1] https://blog.csdn.net/qq_31478771/article/details/111587418
[2] https://zhuanlan.zhihu.com/p/133268053
[3] https://zhuanlan.zhihu.com/p/671972111
[4] https://www.cnblogs.com/RSran/p/17754491.html
[5] https://m.blog.csdn.net/wzk4869/article/details/129702031
[6] https://m.eefocus.com/baike/1779915.html
[7] https://m.blog.csdn.net/qq_42722197/article/details/124919629
[8] https://cloud.baidu.com/article/3191806
[9] https://www.zhihu.com/question/504363624/answer/2970897355
[10] https://m.elecfans.com/article/1899142.html
[11] https://m.eefocus.com/e/1775301.html
[12] https://zhuanlan.zhihu.com/p/538050231
[13] https://www.zhihu.com/tardis/bd/art/150130424
[14] https://blog.51cto.com/u_15567308/6431317
更多推荐

所有评论(0)