
摘要
无监督语义分割旨在无需任何标注的情况下,从图像语料库中自动发现并定位具有语义意义的类别。为完成该任务,算法需为每个像素生成既具备语义意义又足够紧凑的特征表示,以便形成清晰可分的聚类。与以往通过单一端到端框架实现该目标的方法不同,本文提出将特征学习与聚类紧凑化过程解耦。实证研究表明,当前的无监督特征学习框架已能生成语义一致性强的密集特征表示。基于这一观察,我们提出了STEGO(Self-supervised Transformer with Energy-based Graph Optimization)——一种新颖的框架,能够将无监督学习得到的特征高效地提炼为高质量的离散语义标签。STEGO的核心是一种新型对比损失函数,该函数在促使特征形成紧凑聚类的同时,有效保留了图像语料库中特征之间的语义关联性。在CocoStuff(mIoU提升+14)和Cityscapes(mIoU提升+9)两个语义分割基准测试中,STEGO均显著超越了现有最先进方法。
代码仓库
leggedrobotics/self_supervised_segmentation
pytorch
GitHub 中提及
mhamilton723/STEGO
官方
pytorch
GitHub 中提及
merantix-momentum/stego-studies
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-on | STEGO | Accuracy: 73.2 mIoU: 21.0 |
| unsupervised-semantic-segmentation-on-coco-7 | STEGO (ViT-B/8) | Accuracy: 56.9 mIoU: 28.2 |
| unsupervised-semantic-segmentation-on-coco-7 | STEGO (ViT-S/8) | mIoU: 24.5 |
| unsupervised-semantic-segmentation-on-potsdam-1 | STEGO | Accuracy: 77.0 |