4 个月前

跨语言文档分类中的领域差距弥合

Guokun Lai; Barlas Oguz; Yiming Yang; Veselin Stoyanov

摘要

标注训练数据的稀缺性常常阻碍自然语言处理（NLP）模型向多种语言的国际化发展。近年来，跨语言理解（XLU）领域的进展在这一方面取得了显著成果，试图通过语言通用表示来克服语言障碍。然而，即使解决了语言问题，由于不同语言和文化之间的自然领域漂移，一种语言上训练的模型也无法完美地迁移到另一种语言上。本文研究了半监督跨语言理解的设置，在这种设置下，源语言（英语）有标注数据可用，而目标语言仅有未标注数据可用。我们结合了最先进的跨语言方法与最近提出的弱监督学习方法，如无监督预训练和无监督数据增强，以同时缩小XLU中的语言差距和领域差距。我们的研究表明，解决领域差距至关重要。我们在强大的基线模型基础上进行了改进，并在跨语言文档分类任务中达到了新的最先进水平。

代码仓库

laiguokun/xlu-data

官方

GitHub 中提及

基准测试

基准	方法	指标
cross-lingual-document-classification-on	XLMft UDA	Accuracy: 96.95%
cross-lingual-document-classification-on-1	XLMft UDA	Accuracy: 96.8
cross-lingual-document-classification-on-2	XLMft UDA	Accuracy: 96.05
cross-lingual-document-classification-on-8	XLMft UDA	Accuracy: 93.32
cross-lingual-document-classification-on-9	XLMft UDA	Accuracy: 89.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供