
摘要
深度聚类在越来越多的情况下展现出优于传统浅层聚类算法的优势。深度聚类算法通常通过结合表示学习与深度神经网络来实现这一性能,通常优化一个包含聚类损失和非聚类损失的目标函数。在这种情况下,自编码器通常与聚类网络相连,最终的聚类结果由自编码器和聚类网络共同学习得到。然而,我们提出了一种不同的方法,即首先学习一个自编码嵌入,然后在此基础上进一步搜索底层流形。为了简化操作,我们随后使用浅层聚类算法而不是更深的网络来进行聚类。我们在原始数据和自编码嵌入上研究了多种局部和全局流形学习方法,得出结论认为,在我们的框架中,UMAP(Uniform Manifold Approximation and Projection)最能发现嵌入中最适合聚类的流形,这表明在自编码嵌入上进行局部流形学习对于发现更高质量的聚类是有效的。我们通过一系列图像和时间序列数据集定量地展示了我们的方法在最新深度聚类算法中的竞争力,并且在多个数据集上超过了当前最先进的算法。我们认为这些结果为深度聚类的研究指明了一个有前景的方向。代码可以在 https://github.com/rymc/n2d 获取。
代码仓库
josephsdavid/N2D
tf
GitHub 中提及
shyhyawJou/N2D-Pytorch
pytorch
GitHub 中提及
talwiener/n2d
tf
GitHub 中提及
rymc/n2d
官方
tf
GitHub 中提及
talwiener/ds_hw3
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-clustering-on-fashion-mnist | N2D (UMAP) | Accuracy: 0.672 NMI: 0.684 |
| image-clustering-on-har | N2D (UMAP) | Accuracy: 0.801 NMI: 0.683 |
| image-clustering-on-mnist-full | N2D (UMAP) | Accuracy: 0.987 NMI: 0.964 |
| image-clustering-on-mnist-test | N2D (UMAP) | Accuracy: 0.948 NMI: 0.882 |
| image-clustering-on-pendigits | N2D (UMAP) | Accuracy: 0.885 NMI: 0.863 |
| image-clustering-on-usps | N2D (UMAP) | Accuracy: 0.958 NMI: 0.901 |