3 个月前

Lawin Transformer:通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer

Lawin Transformer:通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer

摘要

多尺度表征在语义分割任务中至关重要。近年来,社区涌现出大量基于卷积神经网络(CNN)的语义分割方法,它们通过有效利用多尺度上下文信息取得了显著进展。受视觉Transformer(ViT)在图像分类任务中卓越性能的启发,近期也出现了一些面向语义分割的ViT模型,尽管多数方法取得了令人瞩目的结果,但往往伴随着较高的计算开销。本文成功地将多尺度表征引入语义分割用的ViT架构中,通过引入窗口注意力机制,在不显著增加计算负担的前提下显著提升了模型的性能与效率。为此,我们提出大窗口注意力(Large Window Attention)机制,使局部查询窗口能够以极小的计算代价访问更大范围的上下文窗口。通过调节上下文区域与查询区域之间的比例,该机制能够自适应地捕捉多尺度的上下文信息。此外,我们结合空间金字塔池化(Spatial Pyramid Pooling)框架,设计了一种新颖的解码器结构——大窗口注意力空间金字塔池化(Large Window Attention Spatial Pyramid Pooling, LawinASPP),专为语义分割用ViT优化。最终,我们构建的ViT模型——Lawin Transformer,由一个高效的分层视觉Transformer(Hierarchical Vision Transformer, HVT)作为编码器,以及上述的LawinASPP作为解码器构成。实验结果表明,与现有方法相比,Lawin Transformer在保持高精度的同时显著提升了计算效率。在多个主流语义分割基准数据集上,Lawin Transformer均取得了新的最先进性能:在Cityscapes数据集上达到84.4%的mIoU,在ADE20K数据集上达到56.2%的mIoU,在COCO-Stuff数据集上也表现优异。相关代码已开源,地址为:https://github.com/yan-hao-tian/lawin

代码仓库

yan-hao-tian/lawin
官方
pytorch
GitHub 中提及
sithu31296/semantic-segmentation
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-dada-segLawin Transformer
mIoU: 25.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Lawin Transformer:通过大窗口注意力机制实现多尺度表征以提升语义分割Transformer | 论文 | HyperAI超神经