3 个月前

SegViT:基于普通视觉Transformer的语义分割

SegViT:基于普通视觉Transformer的语义分割

摘要

我们探讨了普通视觉Transformer(Vision Transformers, ViTs)在语义分割任务中的潜力,并提出了SegVit模型。以往基于ViT的分割网络通常从ViT的输出中学习像素级表征,而本文则另辟蹊径,充分利用Transformer的核心组件——注意力机制,直接生成用于语义分割的分割掩码。具体而言,我们提出了注意力到掩码(Attention-to-Mask, ATM)模块,该模块通过将一组可学习的类别令牌(class tokens)与空间特征图之间的相似性映射,转化为最终的分割掩码。实验结果表明,采用ATM模块的SegVit在ADE20K数据集上优于使用普通ViT主干网络的基线模型,并在COCO-Stuff-10K和PASCAL-Context数据集上取得了新的最先进(state-of-the-art)性能。此外,为降低ViT主干网络的计算开销,我们进一步提出了基于查询的下采样(Query-based Down-sampling, QD)与基于查询的上采样(Query-based Up-sampling, QU)策略,构建了“精简结构”(Shrunk structure)。在该结构下,模型可实现高达40%的计算量节省,同时保持优异的分割性能。

代码仓库

zbwxp/SegVit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semantic-segmentation-on-ade20k-valSegViT ViT-Large
mIoU: 55.2
semantic-segmentation-on-coco-stuff-testSegViT (ours)
mIoU: 50.3%
semantic-segmentation-on-pascal-contextSegViT (ours)
mIoU: 65.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SegViT:基于普通视觉Transformer的语义分割 | 论文 | HyperAI超神经