6 个月前

摘要

从超精细分辨率（Very Fine Resolution, VFR）城市场景图像中进行语义分割，在自动驾驶、土地覆盖分类、城市规划等多个应用场景中具有重要意义。然而，VFR图像中蕴含的丰富细节，尤其是物体在尺度和外观上的显著变化，严重制约了现有深度学习方法的性能。针对这一问题的研究已成为遥感领域一个极具前景的方向，为场景级景观格局分析与决策支持提供了技术基础。本文提出了一种双边感知网络（Bilateral Awareness Network, BANet），该网络包含依赖路径（dependency path）与纹理路径（texture path），旨在充分捕捉VFR图像中的长程依赖关系与细粒度细节信息。具体而言，依赖路径基于ResT——一种具有内存高效多头自注意力机制的新型Transformer骨干网络；而纹理路径则构建于堆叠卷积操作之上。此外，本文引入线性注意力机制，设计了一种特征融合模块，用于高效融合依赖路径与纹理路径提取的特征。在三个大规模城市场景图像分割数据集（即ISPRS Vaihingen数据集、ISPRS Potsdam数据集和UAVid数据集）上开展的大量实验表明，所提出的BANet具有优异的性能。其中，在UAVid数据集上取得了64.6%的平均交并比（mIoU）结果。相关代码已开源，地址为：https://github.com/WangLibo1995/GeoSeg。

源 PDF 查看代码