4 个月前

MASS:用于语言生成的掩码序列到序列预训练方法

MASS:用于语言生成的掩码序列到序列预训练方法

摘要

预训练和微调(例如BERT)在语言理解方面取得了巨大成功,通过将知识从资源丰富的预训练任务转移到资源匮乏或零资源的下游任务中。受BERT成功的启发,我们提出了基于编码器-解码器框架的掩码序列到序列预训练方法(MASS)。MASS采用编码器-解码器架构来重建给定句子的片段:其编码器以随机掩码的句子片段(多个连续的标记)作为输入,而解码器则尝试预测这一被掩码的片段。通过这种方式,MASS可以联合训练编码器和解码器,以发展表示提取和语言建模的能力。进一步在多种零/低资源语言生成任务上进行微调,包括神经机器翻译、文本摘要和对话响应生成(共3项任务和8个数据集),MASS在没有预训练或使用其他预训练方法的情况下显著超越了基线模型。特别是在无监督英法翻译任务中,我们达到了最先进的准确率(BLEU得分为37.5),甚至超过了早期基于注意力机制的监督模型。

基准测试

基准方法指标
text-summarization-on-gigawordMASS
ROUGE-1: 38.73
ROUGE-2: 19.71
ROUGE-L: 35.96
unsupervised-machine-translation-on-wmt2014-1MASS (6-layer Transformer)
BLEU: 34.9
unsupervised-machine-translation-on-wmt2014-2MASS (6-layer Transformer)
BLEU: 37.5
unsupervised-machine-translation-on-wmt2016MASS (6-layer Transformer)
BLEU: 28.3
unsupervised-machine-translation-on-wmt2016-1MASS (6-layer Transformer)
BLEU: 35.2
unsupervised-machine-translation-on-wmt2016-2MASS (6-layer Transformer)
BLEU: 35.2
unsupervised-machine-translation-on-wmt2016-3MASS (6-layer Transformer)
BLEU: 33.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MASS:用于语言生成的掩码序列到序列预训练方法 | 论文 | HyperAI超神经