摘要
集成聚类在机器学习与数据挖掘领域受到广泛关注,因其在聚类任务中表现出优异的性能。谱聚类是目前最流行的聚类方法之一,相较于传统聚类方法具有更优的性能。现有的集成聚类方法通常直接采用基础聚类算法的聚类结果进行集成学习,未能充分利用谱聚类中图拉普拉斯矩阵所揭示的数据内在结构,因而难以获得理想的聚类效果。针对这一问题,本文提出了一种基于谱聚类的新型集成学习方法。该方法不直接使用各基础谱聚类算法所得的聚类结果,而是通过集成学习,从每个基础谱聚类算法的谱嵌入(spectral embedding)中学习一个鲁棒的图拉普拉斯矩阵表示。最终,基于所学习到的图拉普拉斯矩阵对应的谱嵌入,应用k-means算法获得聚类结果。在合成数据集与真实世界数据集上的实验结果表明,所提出的方法显著优于现有的各类集成聚类方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-document-clustering-on-australian | ELSC | Accuracy (%): 70.9 |
| image-document-clustering-on-ba | ELSC | Accuracy (%): 51.8 |
| image-document-clustering-on-iris | ELSC | Accuracy (%): 97.7 |
| image-document-clustering-on-jaffe-1 | ELSC | Accuracy (%): 98.6 |
| image-document-clustering-on-pixraw10p | ELSC | Accuracy (%): 96.0 |
| image-document-clustering-on-warppie10p | ELSC | Accuracy (%): 53.4 |
| image-document-clustering-on-wine | ELSC | Accuracy (%): 75.8 |