3 个月前

Segmenter:用于语义分割的Transformer

Segmenter:用于语义分割的Transformer

摘要

图像分割在单个图像块(image patch)层面通常具有模糊性,需要借助上下文信息才能达成标签的一致性。本文提出了一种用于语义分割的Transformer模型——Segmenter。与基于卷积的方法不同,我们的方法能够在网络的第一层乃至整个网络中建模全局上下文信息。该模型基于近期提出的视觉Transformer(Vision Transformer, ViT),并将其扩展至语义分割任务。为此,我们利用图像块对应的输出嵌入(output embeddings),并通过逐点线性解码器或掩码Transformer解码器从中推导出类别标签。我们采用在图像分类任务上预训练的模型,并证明其可在中等规模的语义分割数据集上进行有效微调。仅使用线性解码器即可获得优异性能,而引入能够生成类别掩码的掩码Transformer解码器可进一步提升模型表现。我们开展了详尽的消融实验,验证了不同参数的影响,结果表明:大模型与小图像块尺寸均能带来更优的性能。Segmenter在语义分割任务上取得了卓越成果,在ADE20K和Pascal Context两个数据集上均超越了当前最优方法,在Cityscapes数据集上也具备较强的竞争力。

代码仓库

基准测试

基准方法指标
semantic-segmentation-on-ade20kSeg-B-Mask/16(MS, ViT-B)
Validation mIoU: 50.0
semantic-segmentation-on-ade20kSeg-B/8 (MS, ViT-B)
Validation mIoU: 49.61
semantic-segmentation-on-ade20kSeg-L-Mask/16 (MS)
Validation mIoU: 53.63
semantic-segmentation-on-ade20k-valSeg-B/8 (MS, ViT-B)
Pixel Accuracy: 83.37
mIoU: 49.61
semantic-segmentation-on-ade20k-valSeg-L-Mask/16 (MS, ViT-L)
mIoU: 53.63
semantic-segmentation-on-ade20k-valSeg-B-Mask/16 (MS, ViT-B)
mIoU: 50.0
semantic-segmentation-on-pascal-contextSeg-L-Mask/16
mIoU: 59.0
thermal-image-segmentation-on-rgb-t-glassSegmenter
MAE: 0.072

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供