Saleh SoltanShankar AnanthakrishnanJack FitzGeraldRahul GuptaWael HamzaHaidar KhanCharith PerisStephen RawlsAndy RosenbaumAnna RumshiskyChandana Satya PrakashMukund SridharFabian TriefenbachApurv VermaGokhan TurPrem Natarajan

摘要
在本项研究中,我们证明了在去噪任务与因果语言建模(Causal Language Modeling, CLM)混合数据上预训练的多语言大规模序列到序列(seq2seq)模型,在多种任务上作为少样本学习者(few-shot learners)的效率显著优于仅解码器架构的模型。具体而言,我们训练了一个参数量达200亿的多语言seq2seq模型——Alexa教师模型(AlexaTM 20B),并验证其在单样本摘要任务(1-shot summarization)中达到当前最优(SOTA)性能,超越了参数规模大得多的5400亿参数PaLM解码器模型。此外,AlexaTM 20B在单样本机器翻译任务中同样取得SOTA表现,尤其在低资源语言上优势显著,覆盖了模型支持的几乎所有语言对(阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语),在Flores-101数据集上表现突出。在零样本(zero-shot)设置下,AlexaTM 20B在SuperGLUE与SQuADv2数据集上的表现优于GPT-3(1750亿参数),并在多语言任务如XNLI、XCOPA、Paws-X和XWinograd上实现了SOTA性能。总体而言,我们的研究结果有力地表明,seq2seq模型为大规模语言模型(LLM)训练提供了一种强大且极具潜力的替代方案,相较于仅解码器架构模型具有显著优势。
代码仓库
amazon-science/alexa-teacher-models
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-record | AlexaTM 20B | F1: 88.4 |
| coreference-resolution-on-winograd-schema | AlexaTM 20B | Accuracy: 68.3 |
| natural-language-inference-on-commitmentbank | AlexaTM 20B | Accuracy: 67.9 |
| natural-language-inference-on-rte | AlexaTM 20B | Accuracy: 68.6% |
| question-answering-on-boolq | AlexaTM 20B | Accuracy: 69.4 |
| question-answering-on-copa | AlexaTM 20B | Accuracy: 78.0 |
| question-answering-on-multirc | AlexaTM 20B | F1: 59.6 |
| word-sense-disambiguation-on-words-in-context | AlexaTM 20B | Accuracy: 53.3 |