Command Palette
Search for a command to run...
AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习
AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习
摘要
在本项研究中,我们证明了在去噪任务与因果语言建模(Causal Language Modeling, CLM)混合数据上预训练的多语言大规模序列到序列(seq2seq)模型,在多种任务上作为少样本学习者(few-shot learners)的效率显著优于仅解码器架构的模型。具体而言,我们训练了一个参数量达200亿的多语言seq2seq模型——Alexa教师模型(AlexaTM 20B),并验证其在单样本摘要任务(1-shot summarization)中达到当前最优(SOTA)性能,超越了参数规模大得多的5400亿参数PaLM解码器模型。此外,AlexaTM 20B在单样本机器翻译任务中同样取得SOTA表现,尤其在低资源语言上优势显著,覆盖了模型支持的几乎所有语言对(阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语),在Flores-101数据集上表现突出。在零样本(zero-shot)设置下,AlexaTM 20B在SuperGLUE与SQuADv2数据集上的表现优于GPT-3(1750亿参数),并在多语言任务如XNLI、XCOPA、Paws-X和XWinograd上实现了SOTA性能。总体而言,我们的研究结果有力地表明,seq2seq模型为大规模语言模型(LLM)训练提供了一种强大且极具潜力的替代方案,相较于仅解码器架构模型具有显著优势。