
摘要
深度聚类长期以来主要依赖于扁平化模型,这类模型将数据集划分为预设数量的若干组。尽管近期的方法在主流基准测试中与真实标签达到了极高的相似度,但扁平划分所蕴含的信息仍较为有限。本文提出CoHiClust,一种基于深度神经网络的对比式层次聚类模型,适用于典型的图像数据。通过采用自监督学习策略,CoHiClust在无需任何标注数据的情况下,将基础网络提炼为一棵二叉树结构的层次聚类体系。该层次结构不仅可用于分析聚类之间的关系,还可用于衡量数据点之间的相似性。实验结果表明,CoHiClust生成的聚类结构合理,与人类直觉及图像语义高度一致。此外,在多数图像数据集上,其聚类准确率显著优于当前最先进的扁平聚类模型。
代码仓库
michalznalezniak/contrastive-hierarchical-clustering
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-cifar-10 | CoHiClust | ARI: 0.731 Accuracy: 0.839 Backbone: ResNet-50 NMI: 0.779 Train set: Train |
| image-clustering-on-cifar-100 | CoHiClust | ARI: 0.299 Accuracy: 0.437 NMI: 0.467 |
| image-clustering-on-fashion-mnist | CoHiClust | Accuracy: 0.65 |
| image-clustering-on-imagenet-10 | CoHiClust | ARI: 0.899 Accuracy: 0.953 Backbone: ResNet-50 NMI: 0.907 |
| image-clustering-on-imagenet-dog-15 | CoHiClust | ARI: 0.232 Accuracy: 0.355 Backbone: ResNet-50 NMI: 0.411 |
| image-clustering-on-mnist | CoHiClust | Accuracy: 0.99 |
| image-clustering-on-stl-10 | CoHiClust | ARI: 0.474 Accuracy: 0.613 Backbone: ResNet-50 NMI: 0.584 |