Sixiao ZhengJiachen LuHengshuang ZhaoXiatian ZhuZekun LuoYabiao WangYanwei FuJianfeng FengTao XiangPhilip H.S. TorrLi Zhang

摘要
近年来,主流的语义分割方法普遍采用基于编码器-解码器结构的全卷积网络(FCN)。其中,编码器逐步降低特征图的空间分辨率,同时通过更大的感受野学习更具抽象性与语义性的视觉特征。由于上下文建模在分割任务中至关重要,近期研究主要聚焦于通过空洞卷积(dilated/atrous convolutions)或引入注意力模块来扩大感受野。然而,基于编码器-解码器结构的FCN架构本身并未发生根本性变革。本文提出一种全新的视角:将语义分割建模为序列到序列的预测任务。具体而言,我们采用纯Transformer架构(即不包含卷积操作,也不进行分辨率下采样),将图像划分为多个图像块(patches),并将其编码为一个序列。由于Transformer每一层均能建模全局上下文信息,该编码器可与一个简洁的解码器相结合,构建出一种强大的分割模型,命名为SEgmentation TRansformer(SETR)。大量实验表明,SETR在ADE20K数据集上取得了50.28%的mIoU,刷新了该数据集的最新性能纪录;在Pascal Context数据集上达到55.83%的mIoU,同时在Cityscapes数据集上也取得了具有竞争力的结果。尤为值得一提的是,我们在提交论文当日即登顶极具竞争性的ADE20K测试服务器排行榜,位居第一。
代码仓库
PaddlePaddle/PaddleSeg
paddle
fudan-zvg/SETR
官方
pytorch
GitHub 中提及
gupta-abhay/setr-pytorch
pytorch
GitHub 中提及
920232796/setr-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| medical-image-segmentation-on-synapse-multi | SETR | Avg DSC: 79.60 |
| semantic-segmentation-on-ade20k | SETR-MLA (160k, MS) | Validation mIoU: 50.28 |
| semantic-segmentation-on-cityscapes | SETR-PUP++ | Mean IoU (class): 81.64% |
| semantic-segmentation-on-cityscapes-val | SETR-PUP (80k, MS) | mIoU: 82.15 |
| semantic-segmentation-on-dada-seg | SETR (PUP, Transformer-Large) | mIoU: 31.8 |
| semantic-segmentation-on-dada-seg | SETR (MLA, Transformer-Large) | mIoU: 30.4 |
| semantic-segmentation-on-densepass | SETR (MLA, Transformer-L) | mIoU: 35.6% |
| semantic-segmentation-on-densepass | SETR (PUP, Transformer-L) | mIoU: 35.7% |
| semantic-segmentation-on-foodseg103 | SeTR-MLA (ViT-16/B) | mIoU: 45.1 |
| semantic-segmentation-on-foodseg103 | SeTR-Naive (ViT-16/B) | mIoU: 41.3 |
| semantic-segmentation-on-pascal-context | SETR-MLA (16, 80k, MS) | mIoU: 55.83 |
| semantic-segmentation-on-urbanlf | SETR (ViT-Large) | mIoU (Real): 77.74 mIoU (Syn): 77.69 |