
摘要
近期研究表明,数据增强在显著提升深度学习模型泛化能力方面具有巨大潜力。近年来,自动化增强策略在图像分类和目标检测任务中已取得最先进的性能。尽管这些策略最初是为提升验证集准确率而优化的,但它们在半监督学习中同样取得了最先进成果,并有效增强了模型对图像常见畸变的鲁棒性。然而,这些方法的大规模应用面临两大障碍:其一,需要独立的搜索阶段,这增加了训练复杂度,可能导致计算成本显著上升;其二,由于搜索阶段与主训练过程分离,这些方法无法根据模型规模或数据集大小动态调整正则化强度。当前的自动化增强策略通常通过在小型模型和小规模数据集上训练来发现最优策略,随后将该策略应用于训练更大规模的模型。本文中,我们成功消除了上述两个主要障碍。RandAugment通过大幅缩减搜索空间,使得其可在目标任务上直接进行训练,无需依赖独立的代理任务。此外,得益于其参数化设计,该方法可根据不同模型规模和数据集大小灵活调节正则化强度。因此,RandAugment能够统一应用于多种任务与数据集,开箱即用,其性能在CIFAR-10/100、SVHN和ImageNet等基准上均达到或超越此前所有自动化增强方法。在ImageNet数据集上,RandAugment实现了85.0%的准确率,较此前最先进水平提升0.6%,较基线增强方法提升1.0%。在目标检测任务中,RandAugment相较基线增强方法带来1.0%至1.3%的性能提升,在COCO数据集上的mAP指标仅比AutoAugment低0.3%。最后,由于其超参数具有明确的可解释性,RandAugment还可用于系统研究数据增强在不同模型规模和数据集规模下的作用机制。相关代码已公开发布。
代码仓库
hitchingsh/ml-examples
tf
GitHub 中提及
pytorch/vision
pytorch
A-Telfer/AugKey
GitHub 中提及
rwightman/pytorch-image-models
pytorch
GitHub 中提及
lyxxn0414/test-data-generation
tf
GitHub 中提及
MindCode-4/code-14/tree/main/AVA_hpa
mindspore
rlagywns0213/cifar100_data_augmentation
pytorch
GitHub 中提及
chenyang4/resmooth
pytorch
GitHub 中提及
open-mmlab/mmpretrain
pytorch
GitHub 中提及
ildoonet/pytorch-randaugment
pytorch
GitHub 中提及
sailist/thexp-implement
pytorch
GitHub 中提及
etetteh/sota-data-augmentation-and-optimizers
pytorch
GitHub 中提及
zhanghang1989/fast-autoaug-torch
pytorch
GitHub 中提及
nachiket273/pytorch_resnet_rs
pytorch
GitHub 中提及
adam-mehdi/MuarAugment
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-augmentation-on-imagenet | ResNet-50 (RA) | Accuracy (%): 77.6 |
| domain-generalization-on-vizwiz | EfficientNet-B5 (randaug) | Accuracy - All Images: 42.1 Accuracy - Clean Images: 47.3 Accuracy - Corrupted Images: 35.5 |
| domain-generalization-on-vizwiz | EfficientNet-B7 (randaug) | Accuracy - All Images: 45 Accuracy - Clean Images: 48.7 Accuracy - Corrupted Images: 38.9 |
| image-classification-on-imagenet | EfficientNet-B8 (RandAugment) | Top 1 Accuracy: 85.4% |
| image-classification-on-imagenet | EfficientNet-B7 (RandAugment) | Number of params: 66M Top 1 Accuracy: 85% |