Zewen ChiShaohan HuangLi DongShuming MaBo ZhengSaksham SinghalPayal BajajXia SongXian-Ling MaoHeyan HuangFuru Wei

摘要
本文提出了一种基于ELECTRA风格的任务,用于跨语言语言模型的预训练。具体而言,我们设计了两项预训练任务,分别为多语言替换词检测(multilingual replaced token detection)和翻译替换词检测(translation replaced token detection)。此外,我们基于多语言语料库与平行语料库对模型(命名为XLM-E)进行了预训练。实验结果表明,XLM-E在多种跨语言理解任务上均优于基线模型,且计算成本显著更低。进一步分析显示,XLM-E具有更强的跨语言迁移能力。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-cross-lingual-transfer-on-xtreme | Turing ULR v6 | Avg: 85.5 Question Answering: 77.1 Sentence Retrieval: 94.4 Sentence-pair Classification: 91.0 Structured Prediction: 83.8 |
| zero-shot-cross-lingual-transfer-on-xtreme | Turing ULR v5 | Avg: 84.5 Question Answering: 76.3 Sentence Retrieval: 93.7 Sentence-pair Classification: 90.3 Structured Prediction: 81.7 |