
摘要
神经网络通常具有过参数化特性,因此更受益于激进的正则化方法。传统的正则化技术,如Dropout或权重衰减(weight decay),并未利用网络输入和隐藏状态的结构信息。因此,这类方法的效果不如那些能够利用结构信息的正则化策略,例如SpatialDropout和DropBlock。这些结构化方法会随机丢弃隐藏状态中某些连续区域的值,并将其置零。尽管Dropout区域的位置是随机的,但SpatialDropout和DropBlock的模式是人工设计且固定的。本文提出一种新方法:学习Dropout模式。在该方法中,一个控制器学习为目标网络(如卷积神经网络ConvNet或Transformer)的每一层、每一通道生成特定的Dropout模式。目标网络在该Dropout模式下进行训练,其验证性能作为信号反馈给控制器,用于指导控制器的学习。实验表明,该方法在CIFAR-10和ImageNet图像识别任务,以及Penn Treebank和WikiText-2语言建模任务上均表现良好。此外,所学习到的Dropout模式具有良好的迁移能力,可应用于不同任务与数据集,例如从Penn Treebank上的语言模型迁移至WMT 2014的英法翻译任务。相关代码将公开发布。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | WRN-28-10+AutoDropout+RandAugment | Percentage correct: 97.9 |
| image-classification-on-cifar-10 | AutoDropout | Percentage correct: 96.8 |
| image-classification-on-cifar-104000 | WRN-28-2 + UDA+AutoDropout | Percentage error: 4.2 |
| image-classification-on-imagenet | ResNet-50+AutoDropout+RandAugment | Hardware Burden: Operations per network pass: Top 1 Accuracy: 80.3% |
| image-classification-on-imagenet | ResNet-50 | Top 1 Accuracy: 78.7% |
| image-classification-on-imagenet | EfficientNet-B0 | Top 1 Accuracy: 77.5% |
| image-classification-on-imagenet-10 | ResNet-50 + UDA+AutoDropout | Top 1 Accuracy: 72.9 |
| language-modelling-on-penn-treebank-word | Transformer-XL + AutoDropout | Test perplexity: 54.9 Validation perplexity: 58.1 |
| machine-translation-on-iwslt2014-german | TransformerBase + AutoDropout | BLEU score: 35.8 |
| machine-translation-on-wmt2014-english-french | TransformerBase + AutoDropout | BLEU score: 40 Hardware Burden: Operations per network pass: |