
摘要
多尺度表征在语义分割任务中至关重要。近年来,社区涌现出大量基于卷积神经网络(CNN)的语义分割方法,它们通过有效利用多尺度上下文信息取得了显著进展。受视觉Transformer(ViT)在图像分类任务中卓越性能的启发,近期也出现了一些面向语义分割的ViT模型,尽管多数方法取得了令人瞩目的结果,但往往伴随着较高的计算开销。本文成功地将多尺度表征引入语义分割用的ViT架构中,通过引入窗口注意力机制,在不显著增加计算负担的前提下显著提升了模型的性能与效率。为此,我们提出大窗口注意力(Large Window Attention)机制,使局部查询窗口能够以极小的计算代价访问更大范围的上下文窗口。通过调节上下文区域与查询区域之间的比例,该机制能够自适应地捕捉多尺度的上下文信息。此外,我们结合空间金字塔池化(Spatial Pyramid Pooling)框架,设计了一种新颖的解码器结构——大窗口注意力空间金字塔池化(Large Window Attention Spatial Pyramid Pooling, LawinASPP),专为语义分割用ViT优化。最终,我们构建的ViT模型——Lawin Transformer,由一个高效的分层视觉Transformer(Hierarchical Vision Transformer, HVT)作为编码器,以及上述的LawinASPP作为解码器构成。实验结果表明,与现有方法相比,Lawin Transformer在保持高精度的同时显著提升了计算效率。在多个主流语义分割基准数据集上,Lawin Transformer均取得了新的最先进性能:在Cityscapes数据集上达到84.4%的mIoU,在ADE20K数据集上达到56.2%的mIoU,在COCO-Stuff数据集上也表现优异。相关代码已开源,地址为:https://github.com/yan-hao-tian/lawin
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-dada-seg | Lawin Transformer | mIoU: 25.16 |