8 个月前

摘要

未见类别的文本分类是一项具有挑战性的自然语言处理任务，主要通过两种不同的方法来实现。基于相似性的方法尝试根据文本文档表示与类别描述表示之间的相似性对实例进行分类。零样本文本分类方法则旨在通过对训练任务中获得的知识进行泛化，为文本文档分配适当的未知类别标签。尽管现有的研究已经分别探讨了这些类别的个别方法，但文献中的实验并未提供一致的比较。本文通过系统评估不同基于相似性和零样本的方法来填补这一空白，以实现未见类别的文本分类。我们在四个文本分类数据集上对不同的最先进方法进行了基准测试，其中包括一个来自医学领域的全新数据集。此外，提出了新的SimCSE和SBERT基线方法，因为现有工作中使用的其他基线方法在分类结果上表现较弱且容易被超越。最后，本文介绍了新颖的基于相似性的Lbl2TransformerVec方法，在无监督文本分类中优于以往的最先进方法。我们的实验表明，在大多数情况下，基于相似性的方法显著优于零样本方法。此外，使用SimCSE或SBERT嵌入而不是简单的文本表示可以进一步提高基于相似性的分类效果。

源 PDF