3 个月前

基于高效UNet与Transformer的高分辨率图像语义标注

基于高效UNet与Transformer的高分辨率图像语义标注

摘要

语义分割需要能够学习高层特征并处理海量数据的方法。卷积神经网络(CNN)能够提取独特且自适应的特征,以实现这一目标。然而,由于遥感图像尺寸庞大且空间分辨率极高,传统CNN难以高效地分析整个场景。近年来,深度Transformer模型已展现出捕捉图像中不同对象之间全局交互关系的强大能力。本文提出一种新型分割模型,将卷积神经网络与Transformer相结合,实验表明,这种局部与全局特征提取机制的融合在遥感图像语义分割任务中具有显著优势。此外,所提出的模型设计了两个融合层,以高效地处理多模态输入与网络输出。输入融合层用于提取融合图像内容与数字表面模型(DSM)之间关系的特征图;输出融合层则采用一种新颖的多任务分割策略,通过特定于类别的特征提取层和损失函数来识别各类别标签。最后,引入快速行进法(fast-marching method),将所有未识别的类别标签自动归并至其最近的已知邻近类别。实验结果表明,所提出的方法在分割精度上优于当前最先进的技术。

基准测试

基准方法指标
semantic-segmentation-on-isprs-potsdamEfficientUNets and Transformers
Mean F1: 93.7
Overall Accuracy: 91.8
semantic-segmentation-on-isprs-vaihingenEfficientUNets and Transformers
Average F1: 93.7
Overall Accuracy: 91.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于高效UNet与Transformer的高分辨率图像语义标注 | 论文 | HyperAI超神经