
摘要
预训练和微调(例如BERT)在语言理解方面取得了巨大成功,通过将知识从资源丰富的预训练任务转移到资源匮乏或零资源的下游任务中。受BERT成功的启发,我们提出了基于编码器-解码器框架的掩码序列到序列预训练方法(MASS)。MASS采用编码器-解码器架构来重建给定句子的片段:其编码器以随机掩码的句子片段(多个连续的标记)作为输入,而解码器则尝试预测这一被掩码的片段。通过这种方式,MASS可以联合训练编码器和解码器,以发展表示提取和语言建模的能力。进一步在多种零/低资源语言生成任务上进行微调,包括神经机器翻译、文本摘要和对话响应生成(共3项任务和8个数据集),MASS在没有预训练或使用其他预训练方法的情况下显著超越了基线模型。特别是在无监督英法翻译任务中,我们达到了最先进的准确率(BLEU得分为37.5),甚至超过了早期基于注意力机制的监督模型。
代码仓库
microsoft/MPNet
pytorch
GitHub 中提及
michael-wzhu/mpnet_zh
pytorch
GitHub 中提及
cui0523/Code6/tree/main/mass
mindspore
microsoft/MASS
官方
pytorch
GitHub 中提及
jiaruncao/BioCopyMechanism
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-gigaword | MASS | ROUGE-1: 38.73 ROUGE-2: 19.71 ROUGE-L: 35.96 |
| unsupervised-machine-translation-on-wmt2014-1 | MASS (6-layer Transformer) | BLEU: 34.9 |
| unsupervised-machine-translation-on-wmt2014-2 | MASS (6-layer Transformer) | BLEU: 37.5 |
| unsupervised-machine-translation-on-wmt2016 | MASS (6-layer Transformer) | BLEU: 28.3 |
| unsupervised-machine-translation-on-wmt2016-1 | MASS (6-layer Transformer) | BLEU: 35.2 |
| unsupervised-machine-translation-on-wmt2016-2 | MASS (6-layer Transformer) | BLEU: 35.2 |
| unsupervised-machine-translation-on-wmt2016-3 | MASS (6-layer Transformer) | BLEU: 33.1 |