3 个月前

理解与改进层归一化(Layer Normalization)

理解与改进层归一化(Layer Normalization)

摘要

层归一化(Layer Normalization,简称 LayerNorm)是一种对中间层特征分布进行归一化的技术,能够实现更平稳的梯度、更快的训练速度以及更优的泛化性能。然而,其有效性背后的机制仍不明确。本文的主要贡献在于进一步深入理解 LayerNorm 的作用原理。以往多数研究认为 LayerNorm 的成功源于前向传播过程中的归一化操作。与之不同的是,我们发现,反向传播中均值和方差的导数在通过重新中心化和重新缩放梯度方面起着比前向归一化更为关键的作用。此外,我们还发现 LayerNorm 中的可学习参数(包括偏置项 bias 和缩放项 gain)在大多数情况下反而会增加过拟合风险,且并不带来实际性能提升。实验结果表明,一种不包含偏置和缩放参数的简化版本 LayerNorm(称为 LayerNorm-simple)在四个数据集上均优于标准 LayerNorm,并在 En-Vi 机器翻译任务中达到了当前最优性能。为解决过拟合问题,我们提出了一种新的归一化方法——自适应归一化(Adaptive Normalization,简称 AdaNorm),通过引入一种新的变换函数替代原有的偏置和缩放参数。实验结果表明,AdaNorm 在八个数据集中的七个上均优于标准 LayerNorm,展现出更优的性能表现。

代码仓库

hazdzz/AdaNorm
pytorch
GitHub 中提及

基准测试

基准方法指标
machine-translation-on-iwslt2015-english-1Transformer+LayerNorm-simple
BLEU: 31.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
理解与改进层归一化(Layer Normalization) | 论文 | HyperAI超神经