
摘要
每年不断增长的文档数量使得信息处理方法在搜索、检索和组织文本方面需要不断改进。这些信息处理方法的核心是文档分类,它已成为监督学习的一个重要应用。然而,随着文档数量的增加,传统分类器的性能最近有所下降。这是因为文档数量的增长伴随着类别数量的增加。本文与当前将问题视为多类分类的文档分类方法不同,采用了层次分类的方法,我们称之为用于文本分类的层次深度学习(HDLTex)。HDLTex 使用深度学习架构的堆栈,在文档层次结构的每一层提供专门的理解。
代码仓库
lackel/hierarchical_weighted_scl
pytorch
GitHub 中提及
Lackel/DNA
pytorch
GitHub 中提及
kk7nc/HDLTex
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-classification-on-wos-11967 | HDLTex | Accuracy: 86.07 |
| document-classification-on-wos-46985 | HDLTex | Accuracy: 76.58 |
| document-classification-on-wos-5736 | HDLTex | Accuracy: 90.93 |