4 个月前

Lbl2Vec:一种基于嵌入的预定义主题无监督文档检索方法

Lbl2Vec:一种基于嵌入的预定义主题无监督文档检索方法

摘要

在本文中,我们探讨了从无标签文档数据集中使用无监督方法检索具有预定义主题的文档的任务。所提出的无监督方法仅需要少量描述相应主题的关键词,而无需任何已标记的文档。现有的方法要么严重依赖大量额外编码的世界知识,要么依赖词项-文档频率。相比之下,我们引入了一种方法,该方法仅从无标签文档数据集中学习联合嵌入的文档和词向量,以找到与关键词描述的主题在语义上相似的文档。所提出的方法几乎不需要进行文本预处理,但同时能够以高概率有效地检索相关文档。在从公开可用且常用的数据集中连续检索不同预定义主题的文档时,我们在一个数据集上达到了接收者操作特征曲线下的平均面积值为0.95,在另一个数据集上为0.92。此外,我们的方法可以用于多类文档分类,而无需事先对数据集进行标签分配。与无监督分类基线相比,我们在相应数据集上的F1分数分别从76.6提高到82.7和从61.0提高到75.1。为了便于复制我们的方法,我们将开发的Lbl2Vec代码作为现成工具公开发布,并采用3条款BSD许可证(3-Clause BSD license)。

代码仓库

sebischair/lbl2vec
官方
GitHub 中提及

基准测试

基准方法指标
unsupervised-text-classification-on-1Lbl2Vec
F1-score: 75.1
unsupervised-text-classification-on-ag-newsLbl2Vec
F1 score: 82.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Lbl2Vec:一种基于嵌入的预定义主题无监督文档检索方法 | 论文 | HyperAI超神经