7 个月前

摘要

诸如MAML、Reptile和FOMAML等元学习算法已显著提升了多种神经网络模型的性能。标准梯度下降与这些元学习方法之间的主要区别在于，后者在优化过程中引入了一个小规模的梯度项，该梯度旨在最大化不同批次梯度之间的点积，从而提升模型的泛化能力。已有研究表明，梯度对齐与模型泛化能力密切相关，并且在单任务设置下，Reptile算法已被证明能够有效提升泛化性能。受这些单任务设置下方法的启发，本文提出采用一阶有限差分算法来计算梯度点积所对应的梯度，从而实现对该梯度成分相对于标准梯度权重的显式控制。我们将该梯度作为正则化项使用，促使不同批次间的梯度更加对齐。通过采用有限差分近似，本方法避免了直接计算Hessian矩阵所带来的O(n²)内存开销，因而可轻松应用于大规模模型及大批次训练场景。实验结果表明，该方法在Gigaword数据集上达到了当前最优性能，并在SQuAD-v2.0、Quasar-T、NewsQA以及全部SuperGLUE数据集上均取得了显著性能提升，适用于BERT、RoBERTa和ELECTRA等多种模型架构。此外，在单任务与多任务设置下，该方法作为正则化技术的表现均优于先前的Reptile和FOMAML方法。本方法具有模型无关性，且不引入任何额外的可训练参数。

源 PDF