6 个月前

摘要

层归一化（Layer Normalization，简称 LayerNorm）是一种对中间层特征分布进行归一化的技术，能够实现更平稳的梯度、更快的训练速度以及更优的泛化性能。然而，其有效性背后的机制仍不明确。本文的主要贡献在于进一步深入理解 LayerNorm 的作用原理。以往多数研究认为 LayerNorm 的成功源于前向传播过程中的归一化操作。与之不同的是，我们发现，反向传播中均值和方差的导数在通过重新中心化和重新缩放梯度方面起着比前向归一化更为关键的作用。此外，我们还发现 LayerNorm 中的可学习参数（包括偏置项 bias 和缩放项 gain）在大多数情况下反而会增加过拟合风险，且并不带来实际性能提升。实验结果表明，一种不包含偏置和缩放参数的简化版本 LayerNorm（称为 LayerNorm-simple）在四个数据集上均优于标准 LayerNorm，并在 En-Vi 机器翻译任务中达到了当前最优性能。为解决过拟合问题，我们提出了一种新的归一化方法——自适应归一化（Adaptive Normalization，简称 AdaNorm），通过引入一种新的变换函数替代原有的偏置和缩放参数。实验结果表明，AdaNorm 在八个数据集中的七个上均优于标准 LayerNorm，展现出更优的性能表现。

源 PDF