
摘要
无监督语义分割旨在通过识别图像语料库中的全局语义类别,自动将图像划分为具有语义意义的区域,而无需任何形式的注释。基于近期在自监督表示学习方面的进展,我们重点关注如何利用这些大型预训练模型来完成下游的无监督分割任务。我们提出了PriMaPs(Principal Mask Proposals)——根据图像的特征表示将其分解为具有语义意义的掩码。这使得我们可以通过使用随机期望最大化算法(PriMaPs-EM)将类原型拟合到PriMaPs,从而实现无监督语义分割。尽管其概念简单,但PriMaPs-EM在各种预训练骨干模型(包括DINO和DINOv2)以及不同数据集(如Cityscapes、COCO-Stuff和Potsdam-3)上均取得了有竞争力的结果。重要的是,当PriMaPs-EM正交应用于当前最先进的无监督语义分割流水线时,能够显著提升结果。代码可在https://github.com/visinf/primaps 获取。
代码仓库
visinf/primaps
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-on | PriMaPs-EM + STEGO (DINO ViT-B/8) | Accuracy: 78.6 mIoU: 21.6 |
| unsupervised-semantic-segmentation-on | PriMaPs-EM (DINO ViT-S/8) | Accuracy: 81.2 mIoU: 19.4 |
| unsupervised-semantic-segmentation-on-coco-7 | PriMaPs+HP (DINO ViT-S/8) | Accuracy: 57.8 mIoU: 25.1 |
| unsupervised-semantic-segmentation-on-coco-7 | PriMaPs+STEGO (DINO ViT-B/8) | Accuracy: 57.9 mIoU: 29.7 |
| unsupervised-semantic-segmentation-on-potsdam-1 | PriMaPs-EM+HP (DINO ViT-B/8) | Accuracy: 83.3 mIoU: 71.0 |
| unsupervised-semantic-segmentation-on-potsdam-1 | PriMaPs-EM (DINO ViT-B/8) | Accuracy: 80.5 mIoU: 67.0 |