
摘要
现代方法通常将语义分割建模为逐像素分类任务,而实例级分割则通过另一种掩码分类方式处理。我们的核心洞察在于:掩码分类具有足够的通用性,能够以完全相同的模型结构、损失函数和训练流程,统一解决语义分割与实例级分割任务。基于这一观察,我们提出了MaskFormer——一种简洁的掩码分类模型,该模型预测一组二值掩码,每个掩码对应一个全局类别标签的预测。总体而言,所提出的基于掩码分类的方法简化了语义分割与全景分割任务的有效方法体系,并取得了出色的实验结果。特别地,当类别数量较大时,MaskFormer在性能上显著优于传统的逐像素分类基线方法。该方法在当前最先进的语义分割(ADE20K数据集上达到55.6 mIoU)和全景分割(COCO数据集上达到52.7 PQ)任务中均取得了领先表现。
代码仓库
open-mmlab/mmdetection
pytorch
huggingface/transformers
pytorch
GitHub 中提及
facebookresearch/MaskFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-segmentation-on-ade20k-val | MaskFormer (R101 + 6 Enc) | PQ: 35.7 |
| panoptic-segmentation-on-coco-minival | MaskFormer (single-scale) | PQ: 52.7 PQst: 44.0 PQth: 58.5 RQ: 63.5 SQ: 81.8 |
| panoptic-segmentation-on-coco-test-dev | MaskFormer (Swin-L) | PQ: 53.3 PQst: 44.5 PQth: 59.1 |
| semantic-segmentation-on-ade20k | MaskFormer(Swin-B) | Validation mIoU: 53.8 |
| semantic-segmentation-on-ade20k | MaskFormer(ResNet-101) | Validation mIoU: 48.1 |
| semantic-segmentation-on-ade20k-val | MaskFormer (Swin-L, ImageNet-22k pretrain) | mIoU: 55.6 |
| semantic-segmentation-on-mapillary-val | MaskFormer (ResNet-50) | mIoU: 55.4 |