
摘要
将聚类与表示学习相结合,是深度神经网络无监督学习中最具前景的方法之一。然而,若简单地将二者结合,往往会导致病态的学习问题,并产生退化的解。本文提出了一种新颖且具有理论依据的学习范式,有效解决了上述问题。该方法通过最大化标签与输入数据索引之间的互信息来实现。我们证明,这一准则可将标准的交叉熵最小化推广为一个最优传输问题,并采用一种快速的Sinkhorn-Knopp算法变体,高效求解包含数百万张输入图像和数千个类别的大规模问题。所提出的方法能够自动为视觉数据打标签,从而在无需人工标注的情况下训练出具有高度竞争力的图像表示。在SVHN、CIFAR-10、CIFAR-100和ImageNet数据集上,该方法在AlexNet和ResNet-50模型上均取得了当前最优的表示学习性能,并首次实现了超越监督学习Pascal VOC目标检测基线的自监督AlexNet模型。相关代码与模型均已公开。
代码仓库
vinhdv1628/image_classification_task
pytorch
GitHub 中提及
ananyahjha93/swav
pytorch
GitHub 中提及
mingu6/action_seg_ot
pytorch
GitHub 中提及
yukimasano/self-label
官方
pytorch
hsfzxjy/swavx
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| contrastive-learning-on-imagenet-1k | ResNet50 | ImageNet Top-1 Accuracy: 61.5 |
| image-clustering-on-imagenet | SeLa | Accuracy: - NMI: 66.4 |
| self-supervised-image-classification-on | SeLa (AlexNet) (arxiv v3) | Number of Params: 61M Top 1 Accuracy: 50.0% |
| self-supervised-image-classification-on | SeLa (ResNet50) (arxiv 3) | Number of Params: 24M Top 1 Accuracy: 61.5% Top 5 Accuracy: 84.0% |
| self-supervised-image-classification-on | SeLa (ResNet50) | Number of Params: 24M Top 1 Accuracy: 55.7% Top 5 Accuracy: 79.5% |