4 个月前

SegViTv2:探索高效且持续的语义分割方法——基于纯视觉变换器的研究

SegViTv2:探索高效且持续的语义分割方法——基于纯视觉变换器的研究

摘要

本文研究了纯视觉变换器(ViTs)在编码器-解码器框架下进行语义分割的能力,并介绍了SegViTv2。在本研究中,我们引入了一种新颖的注意力到掩模(Attention-to-Mask, ATM)模块,用于设计适用于纯ViT的轻量级解码器。所提出的ATM模块将全局注意力图转换为语义掩模,以获得高质量的分割结果。我们的解码器在使用各种ViT骨干网络时,性能优于流行的UPerNet解码器,而计算成本仅为其约5%。对于编码器部分,我们解决了基于ViT的编码器计算成本相对较高的问题,并提出了一种Shrunk++结构,该结构集成了边缘感知查询下采样(Edge-Aware Query-based Down-sampling, EQD)和查询上采样(Query-based Upsampling, QU)模块。Shrunk++结构将编码器的计算成本降低了多达50%,同时保持了竞争力的性能。此外,我们提出了对SegViT进行连续语义分割适应的方法,展示了几乎零遗忘先前学习的知识的能力。实验表明,我们提出的SegViTv2在包括ADE20k、COCO-Stuff-10k和PASCAL-Context数据集在内的三个流行基准上超越了近期的分割方法。代码可通过以下链接获取:https://github.com/zbwxp/SegVit。

代码仓库

zbwxp/SegVit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-ade20kSegViT-v2 (BEiT-v2-Large)
GFLOPs (512 x 512): 637.9
Validation mIoU: 58.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SegViTv2:探索高效且持续的语义分割方法——基于纯视觉变换器的研究 | 论文 | HyperAI超神经