
摘要
我们重新评估了在最先进的预训练语言模型中共享输入和输出嵌入权重的标准做法。研究表明,解耦嵌入提供了更大的建模灵活性,使我们能够在多语言模型的输入嵌入中显著提高参数分配的效率。通过在Transformer层中重新分配输入嵌入参数,我们在微调阶段以相同的参数数量实现了标准自然语言理解任务上的显著性能提升。此外,我们还发现为输出嵌入分配额外容量即使在预训练后丢弃输出嵌入,也能在微调阶段持续带来模型性能的提升。我们的分析表明,更大的输出嵌入可以防止模型的最后一层过度专门化于预训练任务,并鼓励Transformer表示更加通用且更容易迁移到其他任务和语言。利用这些发现,我们能够在不增加微调阶段参数数量的情况下训练出在XTREME基准测试中表现优异的模型。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-lingual-natural-language-inference-on-4 | Coupled | Accuracy: 70.7 |
| cross-lingual-natural-language-inference-on-4 | Decoupled | Accuracy: 71.3 |
| cross-lingual-ner-on-ner | Decoupled | F1: 68.9 |
| cross-lingual-ner-on-ner | Coupled | F1: 69.2 |
| cross-lingual-question-answering-on-mlqa | Decoupled | F1: 53.1 |
| cross-lingual-question-answering-on-mlqa | Coupled | EM: 37.3 F1: 53.1 |
| cross-lingual-question-answering-on-tydiqa | Decoupled | EM: 42.8 F1: 58.1 |
| cross-lingual-question-answering-on-xquad | Coupled | EM: 46.2 F1: 63.2 |
| cross-lingual-question-answering-on-xquad | Decoupled | EM: 46.9 F1: 63.8 |