3 个月前

超越Reptile:基于梯度间点积最大化的元学习方法以提升单任务正则化

超越Reptile:基于梯度间点积最大化的元学习方法以提升单任务正则化

摘要

诸如MAML、Reptile和FOMAML等元学习算法已显著提升了多种神经网络模型的性能。标准梯度下降与这些元学习方法之间的主要区别在于,后者在优化过程中引入了一个小规模的梯度项,该梯度旨在最大化不同批次梯度之间的点积,从而提升模型的泛化能力。已有研究表明,梯度对齐与模型泛化能力密切相关,并且在单任务设置下,Reptile算法已被证明能够有效提升泛化性能。受这些单任务设置下方法的启发,本文提出采用一阶有限差分算法来计算梯度点积所对应的梯度,从而实现对该梯度成分相对于标准梯度权重的显式控制。我们将该梯度作为正则化项使用,促使不同批次间的梯度更加对齐。通过采用有限差分近似,本方法避免了直接计算Hessian矩阵所带来的O(n²)内存开销,因而可轻松应用于大规模模型及大批次训练场景。实验结果表明,该方法在Gigaword数据集上达到了当前最优性能,并在SQuAD-v2.0、Quasar-T、NewsQA以及全部SuperGLUE数据集上均取得了显著性能提升,适用于BERT、RoBERTa和ELECTRA等多种模型架构。此外,在单任务与多任务设置下,该方法作为正则化技术的表现均优于先前的Reptile和FOMAML方法。本方法具有模型无关性,且不引入任何额外的可训练参数。

基准测试

基准方法指标
text-summarization-on-gigawordPegasus+DotProd
ROUGE-1: 40.6
ROUGE-2: 21.0
ROUGE-L: 37.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
超越Reptile:基于梯度间点积最大化的元学习方法以提升单任务正则化 | 论文 | HyperAI超神经