3 个月前

从序列到序列的视角重新思考基于Transformer的语义分割

从序列到序列的视角重新思考基于Transformer的语义分割

摘要

近年来,主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络(FCN)。其中,编码器逐步降低特征图的空间分辨率,同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要,近期研究主要聚焦于通过空洞卷积(dilated/atrous convolutions)或引入注意力模块来扩大感受野。然而,基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角:将语义分割建模为序列到序列的预测任务。具体而言,我们采用纯Transformer架构(即不包含卷积操作,也不进行分辨率下采样),将图像划分为多个图像块(patches),并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息,该编码器可与一个简洁的解码器相结合,构建出一种强大的分割模型,命名为SEgmentation TRansformer(SETR)。大量实验表明,SETR在ADE20K数据集上取得了50.28%的mIoU,刷新了该数据集的最新性能纪录;在Pascal Context数据集上达到55.83%的mIoU,同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是,我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜,位居第一。

代码仓库

fudan-zvg/SETR
官方
pytorch
GitHub 中提及
gupta-abhay/setr-pytorch
pytorch
GitHub 中提及
920232796/setr-pytorch
pytorch
GitHub 中提及

基准测试

基准方法指标
medical-image-segmentation-on-synapse-multiSETR
Avg DSC: 79.60
semantic-segmentation-on-ade20kSETR-MLA (160k, MS)
Validation mIoU: 50.28
semantic-segmentation-on-cityscapesSETR-PUP++
Mean IoU (class): 81.64%
semantic-segmentation-on-cityscapes-valSETR-PUP (80k, MS)
mIoU: 82.15
semantic-segmentation-on-dada-segSETR (PUP, Transformer-Large)
mIoU: 31.8
semantic-segmentation-on-dada-segSETR (MLA, Transformer-Large)
mIoU: 30.4
semantic-segmentation-on-densepassSETR (MLA, Transformer-L)
mIoU: 35.6%
semantic-segmentation-on-densepassSETR (PUP, Transformer-L)
mIoU: 35.7%
semantic-segmentation-on-foodseg103SeTR-MLA (ViT-16/B)
mIoU: 45.1
semantic-segmentation-on-foodseg103SeTR-Naive (ViT-16/B)
mIoU: 41.3
semantic-segmentation-on-pascal-contextSETR-MLA (16, 80k, MS)
mIoU: 55.83
semantic-segmentation-on-urbanlfSETR (ViT-Large)
mIoU (Real): 77.74
mIoU (Syn): 77.69

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从序列到序列的视角重新思考基于Transformer的语义分割 | 论文 | HyperAI超神经