
摘要
图像聚类是计算机视觉领域最重要的应用之一,已在文献中得到了广泛研究。然而,现有的聚类方法在处理大规模和高维数据时大多存在效率低下和可扩展性不足的问题。本文提出了一种新的聚类模型,称为深度嵌入正则化聚类(DEeP Embedded RegularIzed ClusTering, DEPICT),该模型能够高效地将数据映射到一个判别性的嵌入子空间,并精确预测聚类分配。DEPICT 通常由一个多层卷积自编码器顶部堆叠的多项式逻辑回归函数组成。我们使用相对熵(Kullback-Leibler 散度)最小化定义了一个聚类目标函数,并通过一个先验对聚类分配频率进行正则化。随后,推导出一种交替策略来通过更新参数和估计聚类分配来优化目标函数。此外,我们在自编码器中使用了重构损失函数作为数据依赖的正则化项,以防止深度嵌入函数过拟合。为了从端到端优化中获益并消除逐层预训练的必要性,我们引入了一个联合学习框架,同时最小化统一的聚类和重构损失函数,并同时训练所有网络层。实验结果表明,DEPICT 在实际聚类任务中的优越性和更快的运行时间,在这些任务中没有可用的标签数据用于超参数调优。
代码仓库
herandy/DEPICT
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-cmu-pie | DEPICT | Accuracy: 0.850 NMI: 0.964 |
| image-clustering-on-cub-birds | DEPICT | Accuracy: 0.061 NMI: 0.290 |
| image-clustering-on-cub-birds | DEPICT-Large | Accuracy: 0.061 NMI: 0.297 |
| image-clustering-on-frgc | DEPICT | Accuracy: 0.432 NMI: 0.583 |
| image-clustering-on-stanford-cars | DEPICT | Accuracy: 0.063 NMI: 0.329 |
| image-clustering-on-stanford-cars | DEPICT-Large | Accuracy: 0.062 NMI: 0.330 |
| image-clustering-on-stanford-dogs | DEPICT | Accuracy: 0.052 NMI: 0.182 |
| image-clustering-on-stanford-dogs | DEPICT-Large | Accuracy: 0.054 NMI: 0.183 |
| image-clustering-on-youtube-faces-db | DEPICT | Accuracy: 0.611 NMI: 0.802 |