
摘要
近期开发的深度无监督方法使我们能够同时学习表示并聚类未标记数据。这些深度聚类方法主要关注样本之间的相关性,例如通过选择高精度对来逐步调整特征表示,但忽略了其他有用的相关性。在本文中,我们提出了一种新颖的聚类框架,称为深度全面相关挖掘(Deep Comprehensive Correlation Mining, DCCM),旨在从三个方面探索和充分利用未标记数据背后的多种相关性:1)除了仅使用成对信息外,还引入了伪标签监督来研究类别信息并学习判别特征;2)充分探索了输入空间图像变换对特征的鲁棒性,这有助于网络学习并显著提高了性能;3)提出了特征间的三元互信息用于聚类问题,将最近发现的实例级深度互信息提升到三元组级别形式,进一步帮助学习更具判别性的特征。在多个具有挑战性的数据集上的广泛实验表明,我们的方法取得了良好的性能,例如在CIFAR-10上达到了62.3%的聚类准确率,比现有最佳结果高出10.1%。
代码仓库
Cory-M/DCCM
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-cifar-10 | DCCM | ARI: 0.408 Accuracy: 0.623 Backbone: AlexNet NMI: 0.496 Train set: Train+Test |
| image-clustering-on-cifar-100 | DCCM | Accuracy: 0.327 NMI: 0.285 Train Set: Train+Test |
| image-clustering-on-imagenet-10 | DCCM | Accuracy: 0.71 NMI: 0.608 |
| image-clustering-on-imagenet-dog-15 | DCCM | Accuracy: 0.383 NMI: 0.321 |
| image-clustering-on-stl-10 | DCCM | Accuracy: 0.482 Backbone: AlexNet NMI: 0.376 Train Split: Train+Test |
| image-clustering-on-tiny-imagenet | DCCM | Accuracy: 0.108 NMI: 0.224 |