6 个月前

摘要

许多先进的子空间聚类方法遵循两步流程：首先构建数据点之间的相似性矩阵（affinity matrix），然后对这一相似性矩阵应用谱聚类（spectral clustering）以获得最终的聚类结果。现有研究大多聚焦于第一步——相似性矩阵的生成，通常利用线性子空间的自表达（self-expressive）特性来构造相似性，而对第二步——谱聚类过程本身则关注较少。此外，现有方法通常通过人为设定或任意选择的后处理步骤，对自表达聚类模型生成的相似性矩阵进行调整，以获得最终用于谱聚类的相似性矩阵，此类后处理方式可能显著影响整体聚类性能。在本研究中，我们通过联合学习数据的自表达表示与适用于谱聚类的具有良好归一化特性的相似性矩阵，将上述两个步骤统一起来。在所提出的模型中，我们对相似性矩阵施加双重随机性（doubly stochastic）约束，从而在理论上提供了一种合理的相似性矩阵归一化方法，同时充分利用了双重随机归一化在谱聚类中已被证实的优良性质。我们构建了一个通用框架，并推导出两种具体模型：一种是联合优化自表达表示与双重随机相似性矩阵；另一种是分步求解，依次优化其中一项。此外，我们利用问题中的稀疏性特征，设计了一种高效的主动集（active-set）算法用于分步求解器，显著提升了大规模数据集上的计算效率。实验结果表明，所提方法在计算机视觉领域多个常用数据集上均达到了当前最优的子空间聚类性能。

源 PDF