3 个月前

Transformer 与卷积的融合:面向超精细分辨率城市场景图像语义分割的双边感知网络

Transformer 与卷积的融合:面向超精细分辨率城市场景图像语义分割的双边感知网络

摘要

从超精细分辨率(Very Fine Resolution, VFR)城市场景图像中进行语义分割,在自动驾驶、土地覆盖分类、城市规划等多个应用场景中具有重要意义。然而,VFR图像中蕴含的丰富细节,尤其是物体在尺度和外观上的显著变化,严重制约了现有深度学习方法的性能。针对这一问题的研究已成为遥感领域一个极具前景的方向,为场景级景观格局分析与决策支持提供了技术基础。本文提出了一种双边感知网络(Bilateral Awareness Network, BANet),该网络包含依赖路径(dependency path)与纹理路径(texture path),旨在充分捕捉VFR图像中的长程依赖关系与细粒度细节信息。具体而言,依赖路径基于ResT——一种具有内存高效多头自注意力机制的新型Transformer骨干网络;而纹理路径则构建于堆叠卷积操作之上。此外,本文引入线性注意力机制,设计了一种特征融合模块,用于高效融合依赖路径与纹理路径提取的特征。在三个大规模城市场景图像分割数据集(即ISPRS Vaihingen数据集、ISPRS Potsdam数据集和UAVid数据集)上开展的大量实验表明,所提出的BANet具有优异的性能。其中,在UAVid数据集上取得了64.6%的平均交并比(mIoU)结果。相关代码已开源,地址为:https://github.com/WangLibo1995/GeoSeg。

代码仓库

WangLibo1995/GeoSeg
官方
pytorch

基准测试

基准方法指标
semantic-segmentation-on-isprs-potsdamBANet
Overall Accuracy: 91.06
semantic-segmentation-on-isprs-vaihingenBANet
Overall Accuracy: 90.5
semantic-segmentation-on-uavidBANet
Mean IoU: 64.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Transformer 与卷积的融合:面向超精细分辨率城市场景图像语义分割的双边感知网络 | 论文 | HyperAI超神经