3 个月前

基于噪声标签学习的增强策略

基于噪声标签学习的增强策略

摘要

真实世界数据集中普遍存在标签不完美(imperfect labels)的问题。近年来,多种在标签噪声环境下仍能有效训练深度神经网络(DNN)的先进方法,主要依赖两种核心技术:在预热阶段(warm-up phase)根据样本损失值进行筛选,以构建初始的高质量清洁标签样本集;以及利用网络输出作为伪标签(pseudo-label),用于后续的损失计算。本文系统评估了针对“带噪声标签学习”问题的各类数据增强策略。我们提出并分析了多种增强策略,并在基于CIFAR-10和CIFAR-100构建的合成数据集以及真实世界数据集Clothing1M上进行了实验验证。由于这些算法具有若干共性特征,我们发现:在损失建模任务中使用一组数据增强策略,而在模型学习阶段使用另一组增强策略,能够取得最佳效果,显著提升当前最先进方法及其他已有方法的性能。此外,我们发现,在预热阶段引入数据增强可能对正确标签与错误标签样本的损失收敛行为产生负面影响。为此,我们将在预热阶段采用特定增强策略的方法引入当前最先进技术中,并实证表明,该策略在所有测试噪声水平下均能有效提升模型性能。具体而言,在CIFAR-10数据集上,当对称噪声比例达到90%时,我们的方法将绝对准确率提升了超过15个百分点;同时,在Clothing1M数据集上也实现了性能的显著改进。(K. Nishi 和 Y. Ding 对本工作贡献相当)

代码仓库

KentoNishi/Augmentation-for-LNL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-clothing1mAugDesc
Accuracy: 75.11%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于噪声标签学习的增强策略 | 论文 | HyperAI超神经