7 个月前

摘要

批量归一化（Batch Normalization, BN）广泛应用于加速神经网络训练并提高泛化能力，通过在小批量内进行标准化操作实现这一目标。去相关批量归一化（Decorrelated Batch Normalization, DBN）通过白化进一步增强了上述效果。然而，DBN 高度依赖于较大的批量大小或特征分解，后者在 GPU 上的效率较低。我们提出了一种迭代归一化方法（Iterative Normalization, IterNorm），该方法利用牛顿迭代法进行更高效的白化，同时避免了特征分解。此外，我们进行了全面的研究，从理论和实验两方面证明 IterNorm 在优化和泛化之间具有更好的平衡。为此，我们专门引入了随机归一化扰动（Stochastic Normalization Disturbance, SND），用于衡量样本在归一化操作中固有的随机不确定性。借助 SND 的支持，我们从优化的角度对几种现象提供了自然解释，例如为什么 DBN 中的分组白化通常优于完全白化，以及为什么 BN 的准确性随着批量大小的减小而下降。我们在 CIFAR-10 和 ImageNet 数据集上进行了广泛的实验，结果表明 IterNorm 与 BN 和 DBN 相比，在性能上始终有所提升。

源 PDF