摘要

深度模型在监督学习和无监督学习方面均取得了最先进的成果。例如，通过使用堆叠自编码器进行表示学习，深度嵌入聚类（Deep Embedded Clustering, DEC）显著提升了无监督聚类性能。然而，深度建模的一个弱点是原始空间中的局部邻域结构不一定能在潜在空间中得到保留。为了保持局部几何特性，已有多种方法被提出，这些方法主要见于监督学习和半监督学习文献中（如谱聚类和标签传播），利用图拉普拉斯正则化来实现这一目标。本文中，我们将深度表示学习的优势与度量传播（Measure Propagation, MP）相结合，MP是一种基于KL散度的图正则化方法，最初用于半监督场景。MP的主要假设是：如果两个数据点在原始空间中接近，则它们很可能属于同一类别，这通过类别成员分布的KL散度来衡量。在无监督学习场景下采用相同的假设，我们提出了深度嵌入聚类辅助以度量传播（Deep Embedded Clustering Aided by Measure Propagation, DECAMP）模型。我们在短文本聚类任务上对DECAMP进行了评估。在三个公开数据集上，DECAMP的表现与其他最先进的基线方法相当，包括那些使用额外数据生成用于聚类过程的词向量的基线方法。例如，在Stackoverflow数据集上，DECAMP达到了79%的聚类准确率，比所有现有的基线方法高出约5%。这些实证结果表明，DECAMP是一种非常有效的无监督学习方法。

源 PDF