
摘要
诸如MAML、Reptile和FOMAML等元学习算法已显著提升了多种神经网络模型的性能。标准梯度下降与这些元学习方法之间的主要区别在于,后者在优化过程中引入了一个小规模的梯度项,该梯度旨在最大化不同批次梯度之间的点积,从而提升模型的泛化能力。已有研究表明,梯度对齐与模型泛化能力密切相关,并且在单任务设置下,Reptile算法已被证明能够有效提升泛化性能。受这些单任务设置下方法的启发,本文提出采用一阶有限差分算法来计算梯度点积所对应的梯度,从而实现对该梯度成分相对于标准梯度权重的显式控制。我们将该梯度作为正则化项使用,促使不同批次间的梯度更加对齐。通过采用有限差分近似,本方法避免了直接计算Hessian矩阵所带来的O(n²)内存开销,因而可轻松应用于大规模模型及大批次训练场景。实验结果表明,该方法在Gigaword数据集上达到了当前最优性能,并在SQuAD-v2.0、Quasar-T、NewsQA以及全部SuperGLUE数据集上均取得了显著性能提升,适用于BERT、RoBERTa和ELECTRA等多种模型架构。此外,在单任务与多任务设置下,该方法作为正则化技术的表现均优于先前的Reptile和FOMAML方法。本方法具有模型无关性,且不引入任何额外的可训练参数。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-summarization-on-gigaword | Pegasus+DotProd | ROUGE-1: 40.6 ROUGE-2: 21.0 ROUGE-L: 37.0 |