摘要
视觉Transformer在自监督训练过程中能够学习到高质量的图像块(patch)嵌入表示,这一表示在诸多无监督下游任务中发挥着关键作用,例如目标定位、目标检测以及稀疏语义分割。这些下游任务通过探索图像块相似性图(patch affinity graph)的多种特性,在无监督设置下取得了当前最优的性能。然而,图像块相似性图的真正潜力尚未在稠密语义分割任务中得到充分挖掘。现有研究表明,图的模块性(modularity)是图结构的一个关键属性,它反映了图中现有划分的紧密程度。本文认为,联合优化嵌入空间中的特征聚类与节点属性空间中的图模块性,能够实现更平稳的训练收敛,并获得更优的性能。为此,本文提出一种新颖的端到端无监督学习方法——GraPix,该方法利用自监督视觉Transformer所提取的图像块嵌入的隐含特性,用于稠密语义分割任务。GraPix首先基于图像块在嵌入空间中的相似性构建亲和图(affinity graph),随后通过我们提出的新型联合特征聚类与图模块性优化目标,学习具有高度判别性的中心嵌入(centroid embeddings),以支持稠密语义分割。实验结果表明,GraPix在SUIM数据集上超越了现有最先进方法,在Cityscapes数据集上取得了第二好的性能。此外,本文还进行了详尽的消融实验,以验证模型组件与超参数选择的合理性。代码已开源,地址为:https://github.com/SonalKumar95/GraPix。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-on | GraPix + AUT | mIoU: 14.54 |
| unsupervised-semantic-segmentation-on | Grapix | mIoU: 14.33 |
| unsupervised-semantic-segmentation-on | GraPix | Pixel Accuracy: 64.89 |
| unsupervised-semantic-segmentation-on-suim | GraPix + AUT | Pixel Accuracy: 65.48 mIoU: 30.78 |
| unsupervised-semantic-segmentation-on-suim | GraPix | Pixel Accuracy: 64.06 mIoU: 28.98 |