3 个月前

ERNIE-M:通过单语语料库对齐跨语言语义以增强多语言表示

ERNIE-M:通过单语语料库对齐跨语言语义以增强多语言表示

摘要

近期研究表明,预训练的跨语言模型在下游跨语言任务中取得了令人瞩目的性能表现。这一进步得益于模型对大规模单语语料和双语语料的学习。尽管普遍认为双语语料对提升模型性能至关重要,但现有方法往往受限于双语语料的规模,尤其是在低资源语言场景下。本文提出了一种名为ERNIE-M的新训练方法,通过利用单语语料促进多语言表示的对齐,以突破双语语料规模对模型性能的制约。我们的核心思想是将回译(back-translation)机制融入预训练过程:在单语语料上生成伪双语句子对,从而实现不同语言间语义层面的对齐,进一步增强跨语言模型的语义建模能力。实验结果表明,ERNIE-M显著优于现有的跨语言模型,并在多种跨语言下游任务中取得了新的最先进(SOTA)性能。

基准测试

基准方法指标
zero-shot-cross-lingual-transfer-on-xtremeERNIE-M
Avg: 80.9
Question Answering: 72.3
Sentence Retrieval: 91.9
Sentence-pair Classification: 87.9
Structured Prediction: 75.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ERNIE-M:通过单语语料库对齐跨语言语义以增强多语言表示 | 论文 | HyperAI超神经