HyperAIHyperAI

Command Palette

Search for a command to run...

SMART:通过合理正则化优化实现预训练自然语言模型的鲁棒且高效的微调

Haoming Jiang Pengcheng He Weizhu Chen Xiaodong Liu Jianfeng Gao Tuo Zhao

摘要

迁移学习从根本上改变了自然语言处理(NLP)研究的格局。目前许多先进的模型首先在大规模文本语料上进行预训练,随后在下游任务上进行微调。然而,由于下游任务的数据资源有限,且预训练模型具有极高的容量,激进的微调策略往往导致模型在下游任务上过拟合,同时遗忘预训练阶段所学习到的知识。为更系统、更严谨地解决上述问题,我们提出了一种新的计算框架,用于实现预训练语言模型的鲁棒且高效的微调。具体而言,该框架包含两个关键组成部分:1)平滑性诱导正则化(smoothness-inducing regularization),有效控制模型容量;2)Bregman近端点优化(Bregman proximal point optimization),属于一类信赖域方法,能够有效防止知识遗忘。实验结果表明,所提出的方法在多个NLP基准测试中均取得了当前最优的性能表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SMART:通过合理正则化优化实现预训练自然语言模型的鲁棒且高效的微调 | 论文 | HyperAI超神经