
摘要
聚类的核心在于引入先验知识以构建监督信号。从基于数据紧凑性的经典k-means方法,到近年来由自监督机制引导的对比聚类方法,聚类技术的发展本质上反映了监督信号演进的历程。目前,研究者已投入大量精力从数据内部挖掘监督信号,然而,诸如语义描述等丰富的外部知识——这些知识本可自然促进聚类——却遗憾地被忽视。本文提出将外部知识作为一种新型监督信号来引导聚类,即使其看似与给定数据无关。为实现并验证这一思想,我们设计了一种外部引导的聚类方法(文本辅助聚类,Text-Aided Clustering, TAC),该方法利用WordNet的文本语义信息来辅助图像聚类。具体而言,TAC首先筛选并检索能够最好区分图像的WordNet名词,以增强特征的可区分性;随后,为进一步提升图像聚类性能,TAC通过跨模态邻域信息的相互蒸馏,实现文本与图像模态之间的协同优化。实验结果表明,TAC在五个广泛使用的图像聚类基准以及三个更具挑战性的图像聚类基准上均取得了当前最优的性能表现,包括在完整的ImageNet-1K数据集上的实验。
代码仓库
xlearning-scu/2024-icml-tac
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet-10 | TAC | ARI: 0.983 |
| image-clustering-on-cifar-10 | TAC | ARI: 0.831 Accuracy: 0.919 NMI: 0.833 |
| image-clustering-on-cifar-20 | TAC | ARI: 0.448 Accuracy: 0.607 NMI: 0.611 |
| image-clustering-on-dtd | TAC | ARI: 34.4 Accuracy: 50.1 NMI: 62.1 |
| image-clustering-on-imagenet-10 | TAC | Accuracy: 0.992 NMI: 0.985 |
| image-clustering-on-imagenet-1k | TAC | ARI: 0.435 Accuracy: 0.582 NMI: 0.799 |
| image-clustering-on-stl-10 | TAC | ARI: 0.961 Accuracy: 0.982 NMI: 0.955 |
| image-clustering-on-ucf101 | TAC | ARI: 0.601 Accuracy: 0.687 NMI: 0.823 |