4 个月前

通过减少表示塌陷来改进微调效果

通过减少表示塌陷来改进微调效果

摘要

尽管现有的微调预训练语言模型的方法被广泛采用,但这些方法在超参数设置上表现出不稳定,这激发了近期对信任区域方法的研究。本文提出了一种基于信任区域理论的简化且高效的方法,该方法用参数噪声(从正态分布或均匀分布中采样)替换了之前使用的对抗目标,从而在不影响性能的前提下尽量减少微调过程中的表示变化。我们还引入了一种新的分析方法,通过研究表示退化现象来更普遍地论证信任区域方法的使用;即预训练模型在针对特定最终任务进行微调时,其泛化表示能力的下降。大量实验表明,我们的微调方法在一系列理解和生成任务(包括DailyMail/CNN、Gigaword、Reddit TIFU以及GLUE基准测试)上的表现与之前的信任区域方法相当或更优,同时速度也快得多。此外,我们还证明了该方法较少发生表示退化;每次微调时,预训练模型都能保持更高的泛化表示能力。

代码仓库

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailyBART+R3F
ROUGE-1: 44.38
ROUGE-2: 21.53
ROUGE-L: 41.17
cross-lingual-natural-language-inference-onXLM-R R4F
Accuracy: 84.7%
cross-lingual-natural-language-inference-on-1XLM-R R4F
Accuracy: 85.2%
cross-lingual-natural-language-inference-on-3XLM-R R4F
Accuracy: 84.2%
text-summarization-on-gigawordBART-RXF
ROUGE-1: 40.45
ROUGE-2: 20.69
ROUGE-L: 36.56
text-summarization-on-reddit-tifuBART+R3F
ROUGE-1: 30.31
ROUGE-2: 10.98
ROUGE-L: 24.74

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过减少表示塌陷来改进微调效果 | 论文 | HyperAI超神经