
摘要
尽管现有的微调预训练语言模型的方法被广泛采用,但这些方法在超参数设置上表现出不稳定,这激发了近期对信任区域方法的研究。本文提出了一种基于信任区域理论的简化且高效的方法,该方法用参数噪声(从正态分布或均匀分布中采样)替换了之前使用的对抗目标,从而在不影响性能的前提下尽量减少微调过程中的表示变化。我们还引入了一种新的分析方法,通过研究表示退化现象来更普遍地论证信任区域方法的使用;即预训练模型在针对特定最终任务进行微调时,其泛化表示能力的下降。大量实验表明,我们的微调方法在一系列理解和生成任务(包括DailyMail/CNN、Gigaword、Reddit TIFU以及GLUE基准测试)上的表现与之前的信任区域方法相当或更优,同时速度也快得多。此外,我们还证明了该方法较少发生表示退化;每次微调时,预训练模型都能保持更高的泛化表示能力。
代码仓库
cosmoquester/2021-dialogue-summary-competition
pytorch
GitHub 中提及
cliang1453/camero
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily | BART+R3F | ROUGE-1: 44.38 ROUGE-2: 21.53 ROUGE-L: 41.17 |
| cross-lingual-natural-language-inference-on | XLM-R R4F | Accuracy: 84.7% |
| cross-lingual-natural-language-inference-on-1 | XLM-R R4F | Accuracy: 85.2% |
| cross-lingual-natural-language-inference-on-3 | XLM-R R4F | Accuracy: 84.2% |
| text-summarization-on-gigaword | BART-RXF | ROUGE-1: 40.45 ROUGE-2: 20.69 ROUGE-L: 36.56 |
| text-summarization-on-reddit-tifu | BART+R3F | ROUGE-1: 30.31 ROUGE-2: 10.98 ROUGE-L: 24.74 |