4 个月前

跨语言文档分类中的领域差距弥合

跨语言文档分类中的领域差距弥合

摘要

标注训练数据的稀缺性常常阻碍自然语言处理(NLP)模型向多种语言的国际化发展。近年来,跨语言理解(XLU)领域的进展在这一方面取得了显著成果,试图通过语言通用表示来克服语言障碍。然而,即使解决了语言问题,由于不同语言和文化之间的自然领域漂移,一种语言上训练的模型也无法完美地迁移到另一种语言上。本文研究了半监督跨语言理解的设置,在这种设置下,源语言(英语)有标注数据可用,而目标语言仅有未标注数据可用。我们结合了最先进的跨语言方法与最近提出的弱监督学习方法,如无监督预训练和无监督数据增强,以同时缩小XLU中的语言差距和领域差距。我们的研究表明,解决领域差距至关重要。我们在强大的基线模型基础上进行了改进,并在跨语言文档分类任务中达到了新的最先进水平。

代码仓库

laiguokun/xlu-data
官方
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨语言文档分类中的领域差距弥合 | 论文 | HyperAI超神经