4 个月前

八种语言的多语种文档分类语料库

八种语言的多语种文档分类语料库

摘要

跨语言文档分类的目标是在一种语言的资源上训练文档分类器,并将其转移到另一种语言而无需额外资源。文献中提出了多种方法,目前最佳实践是在路透社语料库第二卷(Reuters Corpus Volume 2)的一个子集上对这些方法进行评估。然而,该子集仅涵盖少数几种语言(英语、德语、法语和西班牙语),且几乎所有已发表的研究都集中在英语和德语之间的转移。此外,我们观察到不同语言之间的类别先验分布存在显著差异。我们认为这使得多语言性的评估变得更加复杂。在本文中,我们提出了一种新的路透社语料库子集,该子集包含八种语言的平衡类别先验分布。通过增加意大利语、俄语、日语和汉语,我们涵盖了在句法、形态学等方面差异很大的语言。我们为所有语言转移方向提供了强大的基线模型,分别使用了多语言词嵌入和句子嵌入。我们的目标是提供一个自由可用的框架来评估跨语言文档分类,并希望通过这些手段促进这一重要领域的研究。

代码仓库

基准测试

基准方法指标
cross-lingual-document-classification-onBiLSTM (Europarl)
Accuracy: 71.83%
cross-lingual-document-classification-onMultiCCA + CNN
Accuracy: 81.2%
cross-lingual-document-classification-on-1MultiCCA + CNN
Accuracy: 72.5
cross-lingual-document-classification-on-1BiLSTM (UN)
Accuracy: 69.5
cross-lingual-document-classification-on-1BiLSTM (Europarl)
Accuracy: 66.65
cross-lingual-document-classification-on-10MultiCCA + CNN
Accuracy: 69.38
cross-lingual-document-classification-on-10BiLSTM (Europarl)
Accuracy: 60.73
cross-lingual-document-classification-on-11MultiCCA + CNN
Accuracy: 67.63
cross-lingual-document-classification-on-14BiLSTM (Europarl)
Accuracy: 75.45
cross-lingual-document-classification-on-2BiLSTM (UN)
Accuracy: 74.52
cross-lingual-document-classification-on-2MultiCCA + CNN
Accuracy: 72.38
cross-lingual-document-classification-on-2BiLSTM (Europarl)
Accuracy: 72.83
cross-lingual-document-classification-on-8MultiCCA + CNN
Accuracy: 74.73
cross-lingual-document-classification-on-8BiLSTM (UN)
Accuracy: 71.97
cross-lingual-document-classification-on-9BiLSTM (UN)
Accuracy: 61.42
cross-lingual-document-classification-on-9MultiCCA + CNN
Accuracy: 60.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
八种语言的多语种文档分类语料库 | 论文 | HyperAI超神经