摘要
在聚类分析中,评估聚类结果的质量至关重要。尽管文献中已提出多种聚类有效性指标(Cluster Validity Indices, CVIs),但在处理非球形数据集时,这些指标仍存在一定的局限性。其中一个主要原因是,现有的簇间分离度度量未充分考虑异常点及邻近簇的影响。为此,本文设计了一种新的鲁棒距离度量方法,该方法将密度信息融入其中,以有效缓解上述问题,并基于此分离度度量提出了一种新的内部有效性指标。该指标能够同时适应簇的球形与非球形结构。实验结果表明,所提出的指标在性能上优于若干经典CVIs。相关的MATLAB代码与实验数据可于GitHub获取:https://github.com/hulianyu/CVDD
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| clustering-algorithms-evaluation-on | CVDD | Purity: 0.843 |
| clustering-algorithms-evaluation-on-97 | CVDD | HIT-THE-BEST: 50 Rank difference: 337 |
| clustering-algorithms-evaluation-on-iris | CVDD | Purity: 0.967 |
| clustering-algorithms-evaluation-on-jaffe | CVDD | Purity: 0.977 |
| clustering-algorithms-evaluation-on-pathbased | CVDD | Purity: 0.977 |
| clustering-algorithms-evaluation-on-pixraw10p | CVDD | Purity: 0.83 |
| clustering-algorithms-evaluation-on-seeds | CVDD | Purity: 0.905 |