3 个月前

AerialFormer:用于航拍图像分割的多分辨率Transformer

AerialFormer:用于航拍图像分割的多分辨率Transformer

摘要

航拍图像分割是一种自上而下的语义分割任务,具有诸多挑战性特征,例如前景与背景分布严重失衡、背景复杂、类内异质性高、类间同质性强以及小目标众多等问题。为应对上述挑战,我们继承了Transformer模型的优势,并提出了一种名为AerialFormer的新架构:在编码路径中采用Transformer模块,在解码路径中则引入轻量级多膨胀卷积神经网络(Multi-Dilated Convolutional Neural Networks, MD-CNNs)。AerialFormer采用分层结构设计,其中Transformer编码器生成多尺度特征,而MD-CNN解码器则融合来自多尺度的上下文信息。该设计兼顾局部细节与全局语义,从而实现强大的特征表示能力与高分辨率的分割效果。我们在三个常用数据集iSAID、LoveDA和Potsdam上对AerialFormer进行了全面评估。大量实验与详尽的消融研究结果表明,所提出的AerialFormer在性能上显著优于现有最先进方法。本文代码将在论文被接受后公开发布。

代码仓库

UARK-AICV/AerialFormer
官方
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-isaidAerialFormer-S
mIoU: 68.4
semantic-segmentation-on-isaidAerialFormer-T
mIoU: 67.5
semantic-segmentation-on-isaidAerialFormer-B
mIoU: 69.3
semantic-segmentation-on-isprs-potsdamAerialFormer-B
Mean F1: 94.1
Mean IoU: 89.1
Overall Accuracy: 93.9
semantic-segmentation-on-lovedaAerialFormer-B
Category mIoU: 54.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AerialFormer:用于航拍图像分割的多分辨率Transformer | 论文 | HyperAI超神经