3 个月前

一种基于新型Transformer的细分辨率遥感图像语义分割方案

一种基于新型Transformer的细分辨率遥感图像语义分割方案

摘要

具有编码器-解码器结构的全卷积网络(FCN)已成为语义分割任务的标准范式。该架构通过编码器提取多层级特征图,并由解码器将这些特征融合以生成最终的分割预测。由于上下文信息对于实现精确分割至关重要,研究者们已投入大量努力,以智能化方式提取此类信息,例如采用空洞卷积(dilated/atrous convolutions)或引入注意力模块。然而,这些方法均基于以ResNet等为基础的FCN架构,难以从理论上充分挖掘上下文信息。相比之下,本文提出采用Swin Transformer作为主干网络,以更有效地提取上下文特征,并设计了一种新型解码器结构——密集连接特征聚合模块(Densely Connected Feature Aggregation Module, DCFAM),用于恢复特征分辨率并生成最终的分割结果。在两个遥感语义分割数据集上的实验结果验证了所提方法的有效性。代码已开源,地址为:https://github.com/WangLibo1995/GeoSeg。

代码仓库

WangLibo1995/GeoSeg
官方
pytorch

基准测试

基准方法指标
semantic-segmentation-on-isprs-potsdamDC-Swin
Mean F1: 93.25
Mean IoU: 87.56
Overall Accuracy: 92.0
semantic-segmentation-on-isprs-vaihingenDC-Swin
Average F1: 90.7
Overall Accuracy: 91.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种基于新型Transformer的细分辨率遥感图像语义分割方案 | 论文 | HyperAI超神经