Niklas MuennighoffThomas WangLintang SutawikaAdam RobertsStella BidermanTeven Le ScaoM Saiful BariSheng ShenZheng-Xin YongHailey SchoelkopfXiangru TangDragomir RadevAlham Fikri AjiKhalid AlmubarakSamuel AlbanieZaid AlyafeaiAlbert WebsonEdward RaffColin Raffel

摘要
多任务提示微调(Multitask Prompted Fine-tuning, MTF)已被证明能够帮助大型语言模型在零样本(zero-shot)设置下泛化至新任务。然而,迄今为止,对MTF的研究主要局限于英语数据和模型。本文将MTF方法应用于预训练的多语言模型BLOOM和mT5系列,训练出两个微调后的变体,分别称为BLOOMZ和mT0。研究发现,在英语任务上使用英语提示对大型多语言语言模型进行微调,能够实现对仅在预训练语料库中出现的非英语语言的任务泛化。进一步地,在多语言任务上使用英语提示进行微调,不仅提升了模型在英语任务上的表现,也显著改善了其在非英语任务上的性能,从而在多个任务上实现了当前最优的零样本效果。我们还探索了在多语言任务上使用经机器翻译自英语的提示(以匹配各数据集的语言)进行微调。结果表明,基于这些机器翻译提示进行训练的模型,在对应语言的人工撰写提示任务上表现更优。令人惊讶的是,我们发现模型能够实现对从未有意接触过的语言的任务的零样本泛化。我们推测,这表明模型正在学习到既与任务无关、又与语言无关的高层次通用能力。此外,我们提出了xP3——一个涵盖46种语言的监督数据集复合体,包含英语提示和机器翻译后的提示。本文提供的代码、数据集和模型均已开源,可于 https://github.com/bigscience-workshop/xmtf 免费获取。
代码仓库
bigscience-workshop/xmtf
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| coreference-resolution-on-xwinograd-en | BLOOMZ | Accuracy: 69.08 |
| coreference-resolution-on-xwinograd-en | mT0-13B | Accuracy: 81.29 |
| coreference-resolution-on-xwinograd-fr | mT0-13B | Accuracy: 78.31 |
| coreference-resolution-on-xwinograd-fr | BLOOMZ | Accuracy: 68.67 |
| cross-lingual-transfer-on-xcopa | mT0-13B | Accuracy: 84.45 |
| cross-lingual-transfer-on-xcopa | BLOOMZ | Accuracy: 75.5 |
| question-answering-on-storycloze | BLOOMZ | Accuracy: 96.3 |