
摘要
我们提出了一种名为“预微调”(pre-finetuning)的额外大规模学习阶段,位于语言模型的预训练与微调之间。预微调是一种大规模多任务学习(涵盖约50个数据集,总计超过480万个标注样本),其设计目标是促进模型学习更具泛化能力的表示,从而在多种不同任务上表现更优。实验表明,预微调能够持续提升预训练判别模型(如 RoBERTa)和生成模型(如 BART)在广泛任务上的性能,包括句子预测、常识推理、机器阅读理解(MRC)等,同时在微调阶段显著提高样本效率。此外,我们还发现大规模多任务学习至关重要:当任务数量较少时,预微调甚至可能损害性能,直到达到一个临界点(通常在15个任务以上),此后模型性能随任务数量的增加呈线性提升。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily | MUPPET BART Large | ROUGE-1: 44.45 ROUGE-2: 21.25 ROUGE-L: 41.4 |
| common-sense-reasoning-on-commonsenseqa | MUPPET Roberta Large | Accuracy: 79.2 |
| natural-language-inference-on-rte | MUPPET Roberta Large | Accuracy: 92.8% |
| question-answering-on-boolq | MUPPET Roberta Base | Accuracy: 83.8 |
| question-answering-on-boolq | MUPPET Roberta Large | Accuracy: 87.5 |
| sentiment-analysis-on-sst-2-binary | MUPPET Roberta base | Accuracy: 96.7 |
| sentiment-analysis-on-sst-2-binary | MUPPET Roberta Large | Accuracy: 97.4 |
| text-summarization-on-gigaword | MUPPET BART Large | ROUGE-1: 40.4 ROUGE-2: 20.54 ROUGE-L: 36.21 |
| text-summarization-on-reddit-tifu | MUPPET BART Large | ROUGE-1: 30.3 ROUGE-2: 11.25 ROUGE-L: 24.92 |