3 个月前

一种用于短文本聚类的自训练方法

一种用于短文本聚类的自训练方法

摘要

在采用传统的词袋(bag-of-words)或TF-IDF表示方法时,短文本聚类是一个极具挑战性的问题,因为这些方法会导致短文本的向量表示过于稀疏。低维连续表示或嵌入(embeddings)能够有效缓解这一稀疏性问题,其强大的表征能力被广泛应用于深度聚类算法中。尽管深度聚类在计算机视觉领域已得到广泛研究,但在自然语言处理(NLP)领域的相关工作仍相对有限。本文提出的方法,通过联合利用自编码器和句子嵌入模型学习具有判别性的特征,并将聚类算法的聚类分配结果作为监督信号,用于更新编码器网络的权重。在三个短文本数据集上的实验结果充分验证了所提方法的有效性。

基准测试

基准方法指标
short-text-clustering-on-searchsnippetsSIF + Aut., Self-Train.
Acc: 77.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
一种用于短文本聚类的自训练方法 | 论文 | HyperAI超神经