
摘要
近年来,由于深度神经网络(DNNs)(如自编码器)具备强大的表征能力,深度聚类方法逐渐受到广泛关注。其核心思想在于:表征学习与聚类之间能够相互促进——优良的表征有助于获得高质量的聚类结果,而良好的聚类又能为表征学习提供有效的监督信号。关键问题包括:1)如何优化表征学习与聚类过程?2)是否应始终考虑自编码器的重构损失?针对这两个问题,本文提出了一种名为DEKM(Deep Embedded K-Means)的新方法。由于自编码器所生成的嵌入空间可能缺乏明显的聚类结构,我们进一步提出对嵌入空间进行变换,以映射到一个能揭示聚类结构信息的新空间。该变换通过一个正交变换矩阵实现,该矩阵由K均值算法中类内散度矩阵的特征向量构成。特征值反映了各特征向量在新空间中对聚类结构信息贡献的重要性。我们的目标是增强新空间中的聚类结构信息。为此,我们摒弃了自编码器的解码器部分,并提出一种贪心优化策略来提升表征质量。DEKM通过交替优化表征学习与聚类过程,实现联合优化。在多个真实世界数据集上的实验结果表明,DEKM在性能上达到了当前最优水平。
代码仓库
shyhyawJou/DEKM-Pytorch
pytorch
GitHub 中提及
spdj2271/DEKM
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| deep-clustering-on-coil-20 | DEKM | NMI: 80.06 |
| deep-clustering-on-mnist | DEKM | NMI: 91.06 |
| deep-clustering-on-usps | DEKM | NMI: 82.23 |