3 个月前

AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习

AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习

摘要

在本项研究中,我们证明了在去噪任务与因果语言建模(Causal Language Modeling, CLM)混合数据上预训练的多语言大规模序列到序列(seq2seq)模型,在多种任务上作为少样本学习者(few-shot learners)的效率显著优于仅解码器架构的模型。具体而言,我们训练了一个参数量达200亿的多语言seq2seq模型——Alexa教师模型(AlexaTM 20B),并验证其在单样本摘要任务(1-shot summarization)中达到当前最优(SOTA)性能,超越了参数规模大得多的5400亿参数PaLM解码器模型。此外,AlexaTM 20B在单样本机器翻译任务中同样取得SOTA表现,尤其在低资源语言上优势显著,覆盖了模型支持的几乎所有语言对(阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语),在Flores-101数据集上表现突出。在零样本(zero-shot)设置下,AlexaTM 20B在SuperGLUE与SQuADv2数据集上的表现优于GPT-3(1750亿参数),并在多语言任务如XNLI、XCOPA、Paws-X和XWinograd上实现了SOTA性能。总体而言,我们的研究结果有力地表明,seq2seq模型为大规模语言模型(LLM)训练提供了一种强大且极具潜力的替代方案,相较于仅解码器架构模型具有显著优势。

代码仓库

基准测试

基准方法指标
common-sense-reasoning-on-recordAlexaTM 20B
F1: 88.4
coreference-resolution-on-winograd-schemaAlexaTM 20B
Accuracy: 68.3
natural-language-inference-on-commitmentbankAlexaTM 20B
Accuracy: 67.9
natural-language-inference-on-rteAlexaTM 20B
Accuracy: 68.6%
question-answering-on-boolqAlexaTM 20B
Accuracy: 69.4
question-answering-on-copaAlexaTM 20B
Accuracy: 78.0
question-answering-on-multircAlexaTM 20B
F1: 59.6
word-sense-disambiguation-on-words-in-contextAlexaTM 20B
Accuracy: 53.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习 | 论文 | HyperAI超神经