
摘要
标注训练数据的稀缺性常常阻碍自然语言处理(NLP)模型向多种语言的国际化发展。近年来,跨语言理解(XLU)领域的进展在这一方面取得了显著成果,试图通过语言通用表示来克服语言障碍。然而,即使解决了语言问题,由于不同语言和文化之间的自然领域漂移,一种语言上训练的模型也无法完美地迁移到另一种语言上。本文研究了半监督跨语言理解的设置,在这种设置下,源语言(英语)有标注数据可用,而目标语言仅有未标注数据可用。我们结合了最先进的跨语言方法与最近提出的弱监督学习方法,如无监督预训练和无监督数据增强,以同时缩小XLU中的语言差距和领域差距。我们的研究表明,解决领域差距至关重要。我们在强大的基线模型基础上进行了改进,并在跨语言文档分类任务中达到了新的最先进水平。
代码仓库
laiguokun/xlu-data
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-document-classification-on | XLMft UDA | Accuracy: 96.95% |
| cross-lingual-document-classification-on-1 | XLMft UDA | Accuracy: 96.8 |
| cross-lingual-document-classification-on-2 | XLMft UDA | Accuracy: 96.05 |
| cross-lingual-document-classification-on-8 | XLMft UDA | Accuracy: 93.32 |
| cross-lingual-document-classification-on-9 | XLMft UDA | Accuracy: 89.7 |