
摘要
深度学习在视觉领域的成功可以归因于以下几个方面:(a) 高容量模型;(b) 计算能力的提升;以及 (c) 大规模标注数据的可用性。自2012年以来,模型的表示能力和GPU的计算能力都有了显著的进步,但最大的数据集的规模却令人惊讶地保持不变。如果我们把数据集的规模扩大10倍或100倍,会发生什么?本文旨在揭开“海量数据”与视觉深度学习之间关系的神秘面纱。通过利用包含超过3.75亿个噪声标签的JFT-300M数据集(该数据集包含3亿张图像),我们研究了如果使用这些数据进行表示学习,当前视觉任务的性能将如何变化。我们的研究得出了几个令人意外(也有一些在意料之中)的结果。首先,我们发现视觉任务的性能随着训练数据量的增长呈对数增长。其次,我们展示了表示学习(或预训练)仍然具有很大的潜力。仅仅通过训练一个更好的基础模型,就可以提高许多视觉任务的性能。最后,正如预期的那样,我们在不同的视觉任务上展示了新的最先进结果,包括图像分类、目标检测、语义分割和人体姿态估计。我们衷心希望这能激励视觉社区不要低估数据的价值,并共同努力构建更大的数据集。
代码仓库
Tencent/tencent-ml-images
tf
GitHub 中提及
Ranja-S/sensitivity
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | ResNet-101 (JFT-300M Finetuning) | Top 1 Accuracy: 79.2% |
| object-detection-on-coco | Faster R-CNN (ImageNet+300M) | AP50: 58 AP75: 40.1 APL: 51.2 APM: 41.1 APS: 17.5 Hardware Burden: Operations per network pass: box mAP: 37.4 |
| pose-estimation-on-coco-test-dev | Faster R-CNN (ImageNet+300M) | AP: 64.4 AP50: 85.7 AP75: 70.7 APL: 69.8 APM: 61.8 |
| semantic-segmentation-on-pascal-voc-2007 | DeepLabv3 (ImageNet+300M) | Mean IoU: 81.3 |
| semantic-segmentation-on-pascal-voc-2012-val | DeepLabv3 (ImageNet+300M) | mIoU: 76.5% |