6 个月前

摘要

本文介绍了EfficientNetV2，这是一个新型的卷积神经网络家族，相较于以往模型，具有更快的训练速度和更高的参数效率。为构建这一模型系列，我们结合了训练感知的神经架构搜索（training-aware neural architecture search）与模型缩放（scaling）技术，协同优化训练速度与参数效率。所设计的模型在扩展后的搜索空间中进行搜索，该空间引入了诸如Fused-MBConv等新型运算操作。实验结果表明，EfficientNetV2模型在训练速度上显著优于当前最优模型，同时模型规模最多可缩小6.8倍。我们进一步发现，通过在训练过程中逐步增大输入图像尺寸，可进一步提升训练速度，但这一方法通常会导致准确率下降。为补偿这一性能损失，本文提出动态调整正则化策略（如丢弃率dropout和数据增强）的方法，使模型在实现快速训练的同时仍能保持优异的准确率。借助渐进式学习（progressive learning）策略，EfficientNetV2在ImageNet以及CIFAR、Cars、Flowers等数据集上的表现显著超越此前的先进模型。在相同ImageNet21k数据集上进行预训练后，EfficientNetV2在ImageNet ILSVRC2012数据集上实现了87.3%的Top-1准确率，相比近期的Vision Transformer（ViT）模型高出2.0个百分点，且在相同计算资源下训练速度提升5至11倍。相关代码将发布于：https://github.com/google/automl/tree/master/efficientnetv2。

源 PDF