3 个月前

AutoDropout:学习Dropout模式以正则化深度网络

AutoDropout:学习Dropout模式以正则化深度网络

摘要

神经网络通常具有过参数化特性,因此更受益于激进的正则化方法。传统的正则化技术,如Dropout或权重衰减(weight decay),并未利用网络输入和隐藏状态的结构信息。因此,这类方法的效果不如那些能够利用结构信息的正则化策略,例如SpatialDropout和DropBlock。这些结构化方法会随机丢弃隐藏状态中某些连续区域的值,并将其置零。尽管Dropout区域的位置是随机的,但SpatialDropout和DropBlock的模式是人工设计且固定的。本文提出一种新方法:学习Dropout模式。在该方法中,一个控制器学习为目标网络(如卷积神经网络ConvNet或Transformer)的每一层、每一通道生成特定的Dropout模式。目标网络在该Dropout模式下进行训练,其验证性能作为信号反馈给控制器,用于指导控制器的学习。实验表明,该方法在CIFAR-10和ImageNet图像识别任务,以及Penn Treebank和WikiText-2语言建模任务上均表现良好。此外,所学习到的Dropout模式具有良好的迁移能力,可应用于不同任务与数据集,例如从Penn Treebank上的语言模型迁移至WMT 2014的英法翻译任务。相关代码将公开发布。

基准测试

基准方法指标
image-classification-on-cifar-10WRN-28-10+AutoDropout+RandAugment
Percentage correct: 97.9
image-classification-on-cifar-10AutoDropout
Percentage correct: 96.8
image-classification-on-cifar-104000WRN-28-2 + UDA+AutoDropout
Percentage error: 4.2
image-classification-on-imagenetResNet-50+AutoDropout+RandAugment
Hardware Burden:
Operations per network pass:
Top 1 Accuracy: 80.3%
image-classification-on-imagenetResNet-50
Top 1 Accuracy: 78.7%
image-classification-on-imagenetEfficientNet-B0
Top 1 Accuracy: 77.5%
image-classification-on-imagenet-10ResNet-50 + UDA+AutoDropout
Top 1 Accuracy: 72.9
language-modelling-on-penn-treebank-wordTransformer-XL + AutoDropout
Test perplexity: 54.9
Validation perplexity: 58.1
machine-translation-on-iwslt2014-germanTransformerBase + AutoDropout
BLEU score: 35.8
machine-translation-on-wmt2014-english-frenchTransformerBase + AutoDropout
BLEU score: 40
Hardware Burden:
Operations per network pass:

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AutoDropout:学习Dropout模式以正则化深度网络 | 论文 | HyperAI超神经