
摘要
具有编码器-解码器结构的全卷积网络(FCN)已成为语义分割任务的标准范式。该架构通过编码器提取多层级特征图,并由解码器将这些特征融合以生成最终的分割预测。由于上下文信息对于实现精确分割至关重要,研究者们已投入大量努力,以智能化方式提取此类信息,例如采用空洞卷积(dilated/atrous convolutions)或引入注意力模块。然而,这些方法均基于以ResNet等为基础的FCN架构,难以从理论上充分挖掘上下文信息。相比之下,本文提出采用Swin Transformer作为主干网络,以更有效地提取上下文特征,并设计了一种新型解码器结构——密集连接特征聚合模块(Densely Connected Feature Aggregation Module, DCFAM),用于恢复特征分辨率并生成最终的分割结果。在两个遥感语义分割数据集上的实验结果验证了所提方法的有效性。代码已开源,地址为:https://github.com/WangLibo1995/GeoSeg。
代码仓库
WangLibo1995/GeoSeg
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-isprs-potsdam | DC-Swin | Mean F1: 93.25 Mean IoU: 87.56 Overall Accuracy: 92.0 |
| semantic-segmentation-on-isprs-vaihingen | DC-Swin | Average F1: 90.7 Overall Accuracy: 91.6 |