
摘要
聚类是指在不依赖预定义标签的情况下,将相似的数据样本聚集到同一簇中的任务。该问题在机器学习领域已被广泛研究,近年来深度学习的进展重新激发了对该领域的关注。对比聚类(Contrastive Clustering, CC)模型是深度聚类中的核心方法之一,其通过数据增强技术为每个数据实例生成正样本对与负样本对,旨在学习一个特征空间,使得正样本对在实例级别和簇级别上的表示能够相互靠近。尽管此类方法在提升当前最优性能(SOTA)方面取得了进展,但它们普遍忽略了跨实例之间的模式关系,而这些关系对于进一步提升聚类效果具有关键意义。忽略这些关系会导致模型的假负样本对比例上升,同时降低真正样本对的识别率。本文提出一种新型对比聚类方法——跨实例引导的对比聚类(Cross-instance guided Contrastive Clustering, C3),该方法通过建模样本间的跨样本关联关系,有效增加正样本对的数量,并缓解假负样本、噪声样本及异常样本对学习到的数据表示所产生的负面影响。具体而言,我们设计了一种新的损失函数,利用实例级别的表示来识别相似样本,并促使它们在特征空间中聚集。此外,我们提出一种新颖的负样本加权策略,以更高效地选择负样本。大量实验评估表明,所提方法在多个基准计算机视觉数据集上均显著优于现有先进算法:在CIFAR-10、CIFAR-100、ImageNet-10、ImageNet-Dogs和Tiny-ImageNet数据集上,聚类准确率分别提升了6.6%、3.3%、5.0%、1.3%和0.3%。
代码仓库
Armanfard-Lab/C3
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-cifar-10 | C3 | ARI: 0.707 Accuracy: 0.838 NMI: 0.748 |
| image-clustering-on-cifar-100 | C3 | ARI: 0.275 Accuracy: 0.451 NMI: 0.434 |
| image-clustering-on-imagenet-10 | C3 | ARI: 0.861 Accuracy: 0.942 NMI: 0.905 |
| image-clustering-on-imagenet-dog-15 | C3 | ARI: 0.28 Accuracy: 0.434 NMI: 0.448 |
| image-clustering-on-tiny-imagenet | C3 | ARI: 0.065 Accuracy: 0.141 NMI: 0.335 |