HyperAIHyperAI

Command Palette

Search for a command to run...

跨语言文档分类中的领域差距弥合

Guokun Lai Barlas Oğuz Yiming Yang Veselin Stoyanov

摘要

标注训练数据的稀缺性常常阻碍自然语言处理(NLP)模型向多种语言的国际化发展。近年来,跨语言理解(XLU)领域的进展在这一方面取得了显著成果,试图通过语言通用表示来克服语言障碍。然而,即使解决了语言问题,由于不同语言和文化之间的自然领域漂移,一种语言上训练的模型也无法完美地迁移到另一种语言上。本文研究了半监督跨语言理解的设置,在这种设置下,源语言(英语)有标注数据可用,而目标语言仅有未标注数据可用。我们结合了最先进的跨语言方法与最近提出的弱监督学习方法,如无监督预训练和无监督数据增强,以同时缩小XLU中的语言差距和领域差距。我们的研究表明,解决领域差距至关重要。我们在强大的基线模型基础上进行了改进,并在跨语言文档分类任务中达到了新的最先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供