
摘要
近期的自监督模型已经展示了与监督方法相当甚至更好的性能,为人工智能系统从几乎无限的数据中学习视觉表示开辟了新的途径。然而,这些方法通常基于分类,因此在学习高分辨率特征图以保留精确的空间信息方面效果不佳。本研究引入超像素(superpixels)来改进密集且语义丰富的视觉概念嵌入的自监督学习。将图像分解为少量视觉连贯的区域可以将计算复杂度降低$\mathcal{O}(1000)$倍,同时保留细节。实验结果表明,对区域进行对比可以提高对比学习方法的有效性,扩展其在高分辨率图像上的适用性,改善过聚类(overclustering)性能,并且超像素优于网格(grids),区域掩码(regional masking)也能提升性能。通过在Cityscapes数据集上改进无监督语义分割基准以及在COCO数据集上改进卷积模型的性能,我们展示了所提出的密集嵌入的表达能力。
代码仓库
robin-karlsson0/vice
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| unsupervised-semantic-segmentation-on | ViCE | Accuracy: 84.3 mIoU: 25.2 |
| unsupervised-semantic-segmentation-on-coco-7 | ViCE | Accuracy: 64.8 mIoU: 21.77 |