4 个月前

重新审视数据在深度学习时代的不合理有效性

重新审视数据在深度学习时代的不合理有效性

摘要

深度学习在视觉领域的成功可以归因于以下几个方面:(a) 高容量模型;(b) 计算能力的提升;以及 (c) 大规模标注数据的可用性。自2012年以来,模型的表示能力和GPU的计算能力都有了显著的进步,但最大的数据集的规模却令人惊讶地保持不变。如果我们把数据集的规模扩大10倍或100倍,会发生什么?本文旨在揭开“海量数据”与视觉深度学习之间关系的神秘面纱。通过利用包含超过3.75亿个噪声标签的JFT-300M数据集(该数据集包含3亿张图像),我们研究了如果使用这些数据进行表示学习,当前视觉任务的性能将如何变化。我们的研究得出了几个令人意外(也有一些在意料之中)的结果。首先,我们发现视觉任务的性能随着训练数据量的增长呈对数增长。其次,我们展示了表示学习(或预训练)仍然具有很大的潜力。仅仅通过训练一个更好的基础模型,就可以提高许多视觉任务的性能。最后,正如预期的那样,我们在不同的视觉任务上展示了新的最先进结果,包括图像分类、目标检测、语义分割和人体姿态估计。我们衷心希望这能激励视觉社区不要低估数据的价值,并共同努力构建更大的数据集。

代码仓库

Tencent/tencent-ml-images
tf
GitHub 中提及
Ranja-S/sensitivity
GitHub 中提及

基准测试

基准方法指标
image-classification-on-imagenetResNet-101 (JFT-300M Finetuning)
Top 1 Accuracy: 79.2%
object-detection-on-cocoFaster R-CNN (ImageNet+300M)
AP50: 58
AP75: 40.1
APL: 51.2
APM: 41.1
APS: 17.5
Hardware Burden:
Operations per network pass:
box mAP: 37.4
pose-estimation-on-coco-test-devFaster R-CNN (ImageNet+300M)
AP: 64.4
AP50: 85.7
AP75: 70.7
APL: 69.8
APM: 61.8
semantic-segmentation-on-pascal-voc-2007DeepLabv3 (ImageNet+300M)
Mean IoU: 81.3
semantic-segmentation-on-pascal-voc-2012-valDeepLabv3 (ImageNet+300M)
mIoU: 76.5%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视数据在深度学习时代的不合理有效性 | 论文 | HyperAI超神经