Sheng Guo; Weilin Huang; Haozhi Zhang; Chenfan Zhuang; Dengke Dong; Matthew R. Scott; Dinglong Huang

摘要
我们提出了一种简单而高效的深度神经网络训练方法,该方法能够在大规模弱监督网络图像上进行训练,这些图像是通过使用文本查询从互联网上直接抓取的,无需任何人工标注。我们开发了一种基于课程学习的原理性学习策略,旨在有效应对大量噪声标签和数据不平衡问题。我们设计了一种新的学习课程,通过测量特征空间中的数据分布密度来评估数据的复杂度,并以无监督的方式对复杂度进行排序。这使得在大规模网络图像上高效实施课程学习成为可能,从而构建出高性能的卷积神经网络(CNN)模型,显著降低了噪声标签的负面影响。重要的是,实验表明那些具有高噪声标签的图像可以通过充当正则化手段的方式意外地提高模型的泛化能力。我们的方法在四个基准测试中取得了最先进的性能:WebVision、ImageNet、Clothing-1M 和 Food-101。通过多个模型的集成,我们在 WebVision 挑战赛的 1000 类分类任务中实现了 5.2% 的前五错误率。这一结果远远领先于其他竞争对手,比第二名的相对错误率低了近 50%。代码和模型可在以下地址获取:https://github.com/MalongTech/CurriculumNet 。
代码仓库
guoshengcv/CurriculumNet
官方
GitHub 中提及
MalongTech/CurriculumNet
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-clothing1m-using | CurriculumNet | Accuracy: 81.5% |
| image-classification-on-webvision-1000 | CurriculumNet (Inception-v2) | ImageNet Top-1 Accuracy: 64.8% ImageNet Top-5 Accuracy: 84.9% Top-1 Accuracy: 72.1% Top-5 Accuracy: 89.2% |
| image-classification-on-webvision-1000 | CurriculumNet (InceptionResNet-v2) | Top-1 Accuracy: 79.3% Top-5 Accuracy: 93.6% |