
摘要
数据增强是图像分类神经网络训练的关键。本文首先指出,现有的数据增强方法在训练和测试时所见对象的典型尺寸之间存在显著差异。我们通过实验验证了,对于目标测试分辨率,使用较低的训练分辨率可以在测试时获得更好的分类效果。随后,我们提出了一种简单而有效且高效的策略,以优化当训练和测试分辨率不同时的分类器性能。该策略仅涉及在网络测试分辨率下进行计算成本低廉的微调。这使得可以使用小尺寸的训练图像来训练强大的分类器。例如,我们使用128x128像素的图像训练ResNet-50模型,在ImageNet上获得了77.1%的单次预测准确率;而使用224x224像素的图像训练,则准确率提高到79.8%。此外,如果我们使用额外的训练数据,使用224x224像素图像训练的ResNet-50模型可以获得82.5%的准确率。相反地,当我们以弱监督方式在9.4亿张公共图像(分辨率为224x224)上预训练ResNeXt-101 32x48d模型,并进一步针对320x320分辨率进行优化时,我们在测试中获得了86.4%的单次预测准确率(前五预测准确率:98.0%)(单裁剪)。据我们所知,这是迄今为止ImageNet上的最高单裁剪、单次预测及前五预测准确率。
代码仓库
facebookresearch/FixRes
官方
pytorch
GitHub 中提及
libffcv/ffcv-imagenet
pytorch
GitHub 中提及
kun-woo-park/Deeplearning_project_STL_10
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-birdsnap | FixSENet-154 | Accuracy: 84.3% |
| fine-grained-image-classification-on-cub-200-1 | FixSENet-154 | Accuracy: 88.7 |
| fine-grained-image-classification-on-nabirds | FixSENet-154 | Accuracy: 89.2% |
| fine-grained-image-classification-on-oxford | FixInceptionResNet-V2 | Accuracy: 95.7% Top-1 Error Rate: 4.3% |
| fine-grained-image-classification-on-oxford-1 | FixSENet-154 | Accuracy: 94.8% Top-1 Error Rate: 5.2% |
| fine-grained-image-classification-on-stanford | FixSENet-154 | Accuracy: 94.4% |
| image-classification-on-imagenet | FixResNet-50 | Top 1 Accuracy: 79.1% |
| image-classification-on-imagenet | FixResNet-50 Billion-scale@224 | Number of params: 25.6M Top 1 Accuracy: 82.5% |
| image-classification-on-imagenet | FixResNeXt-101 32x48d | Hardware Burden: 62G Number of params: 829M Top 1 Accuracy: 86.4% Top 5 Accuracy: 98.0% |
| image-classification-on-imagenet | FixResNet-50 CutMix | Top 1 Accuracy: 79.8% |
| image-classification-on-imagenet-real | FixResNeXt-101 32x48d | Accuracy: 89.73% Params: 829M |
| image-classification-on-inaturalist | FixSENet-154 | Top 1 Accuracy: 75.4 |