6 个月前

摘要

神经网络通常具有过参数化特性，因此更受益于激进的正则化方法。传统的正则化技术，如Dropout或权重衰减（weight decay），并未利用网络输入和隐藏状态的结构信息。因此，这类方法的效果不如那些能够利用结构信息的正则化策略，例如SpatialDropout和DropBlock。这些结构化方法会随机丢弃隐藏状态中某些连续区域的值，并将其置零。尽管Dropout区域的位置是随机的，但SpatialDropout和DropBlock的模式是人工设计且固定的。本文提出一种新方法：学习Dropout模式。在该方法中，一个控制器学习为目标网络（如卷积神经网络ConvNet或Transformer）的每一层、每一通道生成特定的Dropout模式。目标网络在该Dropout模式下进行训练，其验证性能作为信号反馈给控制器，用于指导控制器的学习。实验表明，该方法在CIFAR-10和ImageNet图像识别任务，以及Penn Treebank和WikiText-2语言建模任务上均表现良好。此外，所学习到的Dropout模式具有良好的迁移能力，可应用于不同任务与数据集，例如从Penn Treebank上的语言模型迁移至WMT 2014的英法翻译任务。相关代码将公开发布。

源 PDF