4 个月前

评估无监督文本分类:零样本和基于相似性的方法

评估无监督文本分类:零样本和基于相似性的方法

摘要

未见类别的文本分类是一项具有挑战性的自然语言处理任务,主要通过两种不同的方法来实现。基于相似性的方法尝试根据文本文档表示与类别描述表示之间的相似性对实例进行分类。零样本文本分类方法则旨在通过对训练任务中获得的知识进行泛化,为文本文档分配适当的未知类别标签。尽管现有的研究已经分别探讨了这些类别的个别方法,但文献中的实验并未提供一致的比较。本文通过系统评估不同基于相似性和零样本的方法来填补这一空白,以实现未见类别的文本分类。我们在四个文本分类数据集上对不同的最先进方法进行了基准测试,其中包括一个来自医学领域的全新数据集。此外,提出了新的SimCSE和SBERT基线方法,因为现有工作中使用的其他基线方法在分类结果上表现较弱且容易被超越。最后,本文介绍了新颖的基于相似性的Lbl2TransformerVec方法,在无监督文本分类中优于以往的最先进方法。我们的实验表明,在大多数情况下,基于相似性的方法显著优于零样本方法。此外,使用SimCSE或SBERT嵌入而不是简单的文本表示可以进一步提高基于相似性的分类效果。

代码仓库

sebischair/lbl2vec
官方
GitHub 中提及

基准测试

基准方法指标
unsupervised-text-classification-on-1Lbl2TransformerVec
F1-score: 64,69
unsupervised-text-classification-on-ag-newsLbl2TransformerVec
F1-score: 83,79
unsupervised-text-classification-on-medicalLbl2Vec
F1-score: 43.03
unsupervised-text-classification-on-medicalLbl2TransformerVec
F1-score: 56.46
unsupervised-text-classification-on-yahooLbl2TransformerVec
F1-score: 55.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
评估无监督文本分类:零样本和基于相似性的方法 | 论文 | HyperAI超神经