Irwan BelloWilliam FedusXianzhi DuEkin D. CubukAravind SrinivasTsung-Yi LinJonathon ShlensBarret Zoph

摘要
尽管新型计算机视觉架构备受关注,但模型架构的影响常与训练方法及扩展策略的同步变化混淆在一起。本文重新审视了经典的ResNet(He et al., 2015),系统研究了架构、训练方法与扩展策略三者之间的关系,旨在将它们解耦分析。出人意料的是,我们发现训练策略与扩展策略的影响可能超过架构本身的改进,且由此获得的ResNet模型性能已可媲美当前最先进的模型。我们进一步指出,最优的扩展策略取决于具体的训练范式,并提出两种新的扩展策略:(1)在容易发生过拟合的训练场景中,应优先增加模型深度(否则应采用宽度扩展);(2)图像分辨率的提升速度应比以往建议的更缓慢(相较于Tan & Le, 2019的方案)。基于这些改进的训练与扩展策略,我们设计了一组新的ResNet架构——ResNet-RS。在TPU平台上,ResNet-RS的推理速度比EfficientNet快1.7至2.7倍,同时在ImageNet上的精度保持相当水平。在大规模半监督学习设置下,ResNet-RS在ImageNet上实现了86.2%的Top-1精度,且训练速度比EfficientNet NoisyStudent快4.7倍。所提出的训练技术显著提升了在一系列下游任务上的迁移性能,其表现可与当前最先进的自监督学习算法相媲美,并成功拓展至Kinetics-400视频分类任务。我们建议研究者在未来的工作中将这些经过简化优化的ResNet作为基准模型使用。
代码仓库
rwightman/pytorch-image-models
pytorch
GitHub 中提及
nachiket273/pytorch_resnet_rs
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| document-image-classification-on-aip | ResNet-RS (ResNet-200 + RS training tricks) | Top 1 Accuracy - Verb: 83.4 |
| image-classification-on-imagenet | ResNet-RS-50 (160 image res) | GFLOPs: 4.6 Hardware Burden: Number of params: 192M Operations per network pass: Top 1 Accuracy: 84.4% |
| image-classification-on-imagenet | ResNet-RS-270 (256 image res) | GFLOPs: 54 Top 1 Accuracy: 83.8% |
| image-classification-on-prima | ResNet-152 2x (RS training) | Percentage correct: 89.3 |