
摘要
本文研究了纯视觉变换器(ViTs)在编码器-解码器框架下进行语义分割的能力,并介绍了SegViTv2。在本研究中,我们引入了一种新颖的注意力到掩模(Attention-to-Mask, ATM)模块,用于设计适用于纯ViT的轻量级解码器。所提出的ATM模块将全局注意力图转换为语义掩模,以获得高质量的分割结果。我们的解码器在使用各种ViT骨干网络时,性能优于流行的UPerNet解码器,而计算成本仅为其约5%。对于编码器部分,我们解决了基于ViT的编码器计算成本相对较高的问题,并提出了一种Shrunk++结构,该结构集成了边缘感知查询下采样(Edge-Aware Query-based Down-sampling, EQD)和查询上采样(Query-based Upsampling, QU)模块。Shrunk++结构将编码器的计算成本降低了多达50%,同时保持了竞争力的性能。此外,我们提出了对SegViT进行连续语义分割适应的方法,展示了几乎零遗忘先前学习的知识的能力。实验表明,我们提出的SegViTv2在包括ADE20k、COCO-Stuff-10k和PASCAL-Context数据集在内的三个流行基准上超越了近期的分割方法。代码可通过以下链接获取:https://github.com/zbwxp/SegVit。
代码仓库
zbwxp/SegVit
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-ade20k | SegViT-v2 (BEiT-v2-Large) | GFLOPs (512 x 512): 637.9 Validation mIoU: 58.2 |