
摘要
语义分割需要能够学习高层特征并处理海量数据的方法。卷积神经网络(CNN)能够提取独特且自适应的特征,以实现这一目标。然而,由于遥感图像尺寸庞大且空间分辨率极高,传统CNN难以高效地分析整个场景。近年来,深度Transformer模型已展现出捕捉图像中不同对象之间全局交互关系的强大能力。本文提出一种新型分割模型,将卷积神经网络与Transformer相结合,实验表明,这种局部与全局特征提取机制的融合在遥感图像语义分割任务中具有显著优势。此外,所提出的模型设计了两个融合层,以高效地处理多模态输入与网络输出。输入融合层用于提取融合图像内容与数字表面模型(DSM)之间关系的特征图;输出融合层则采用一种新颖的多任务分割策略,通过特定于类别的特征提取层和损失函数来识别各类别标签。最后,引入快速行进法(fast-marching method),将所有未识别的类别标签自动归并至其最近的已知邻近类别。实验结果表明,所提出的方法在分割精度上优于当前最先进的技术。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-isprs-potsdam | EfficientUNets and Transformers | Mean F1: 93.7 Overall Accuracy: 91.8 |
| semantic-segmentation-on-isprs-vaihingen | EfficientUNets and Transformers | Average F1: 93.7 Overall Accuracy: 91.8 |