
摘要
短文本聚类由于其文本表示的稀疏性而成为一个具有挑战性的问题。本文提出了一种灵活的自学习卷积神经网络框架用于短文本聚类(简称STC^2),该框架能够灵活且成功地融入更多有用的语义特征,并以无监督的方式学习非偏差的深度文本表示。在我们的框架中,首先利用现有的无监督降维方法将原始的原始文本特征嵌入到紧凑的二进制代码中。然后,探索词嵌入并将其输入卷积神经网络以学习深度特征表示,同时在训练过程中使用输出单元来拟合预训练的二进制代码。最后,通过应用K均值算法对学习到的表示进行聚类,获得最优的聚类结果。广泛的实验结果表明,所提出的框架有效、灵活,并在三个公开的短文本数据集上测试时优于几种流行的聚类方法。
代码仓库
jacoxu/STC2
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| short-text-clustering-on-biomedical | STC2-LPI | Acc: 43 |
| short-text-clustering-on-biomedical | STC2-LE | Acc: 43.62 |
| short-text-clustering-on-searchsnippets | STC2-LPI | Acc: 77.01 |
| short-text-clustering-on-searchsnippets | STC2-LE | Acc: 77.09 |
| short-text-clustering-on-stackoverflow | Deep ECIC | Acc: STC2-LE |
| short-text-clustering-on-stackoverflow | Deep ECIC | Acc: STC2-LPI |