3 个月前

SSR:一种高效且鲁棒的未知标签噪声学习框架

SSR:一种高效且鲁棒的未知标签噪声学习框架

摘要

尽管神经网络在监督学习方面取得了显著进展,但获取高质量、大规模且精确标注的数据集仍面临重大挑战。在此背景下,如何在标签噪声存在的情况下进行有效学习日益受到关注。作为一项相对复杂的问题,当前多数方法为了获得良好性能,通常融合了多个领域的技术组件,如监督学习、半监督学习和迁移学习,导致方法结构复杂。此外,这些方法往往对数据噪声类型做出多种假设,从而影响模型的鲁棒性,并限制其在不同噪声条件下的泛化能力。本文提出一种新颖的问题设定——未知标签噪声学习(Learning with Unknown Label Noise, LULN),即在标签噪声的强度和类型均未知的情况下进行学习。在此设定下,与以往方法通常引入多重假设并导致复杂解决方案不同,我们提出一种简单、高效且鲁棒的框架——样本选择与重标注(Sample Selection and Relabelling, SSR)。该方法仅需极少的超参数,即可在多种噪声条件下取得当前最优(SOTA)性能。本方法的核心机制基于两个分类器:一个非参数化的K近邻分类器(Non-parametric KNN classifier, NPK)$g_q$,用于识别干净样本;一个参数化模型分类器(Parametric Model Classifier, PMC)$g_p$,用于逐步重标注噪声样本。整个过程无需复杂的附加组件,如模型协同训练(co-training)、自监督预训练或半监督学习等,同时对少数超参数的设置具有较强的鲁棒性。实验结果表明,SSR在包含合成噪声的CIFAR-10/CIFAR-100数据集,以及真实世界中的噪声数据集(如WebVision、Clothing1M和ANIMAL-10N)上,均显著优于现有方法。相关代码已开源,地址为:https://github.com/MrChenFeng/SSR_BMVC2022。

代码仓库

MrChenFeng/SSR_BMVC2022
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-cifar-10-with-noisySSR
Accuracy (under 20% Sym. label noise): 96.74%
Accuracy (under 50% Sym. label noise): 96.13%
Accuracy (under 80% Sym. label noise): 95.56%
Accuracy (under 90% Sym. label noise): 95.17%
image-classification-on-clothing1mSSR
Accuracy: 74.91
image-classification-on-mini-webvision-1-0SSR
ImageNet Top-1 Accuracy: 75.76
ImageNet Top-5 Accuracy: 91.76
Top-1 Accuracy: 80.92
Top-5 Accuracy: 92.80
learning-with-noisy-labels-on-animalSSR
Accuracy: 88.5
ImageNet Pretrained: NO
Network: Vgg19-BN

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SSR:一种高效且鲁棒的未知标签噪声学习框架 | 论文 | HyperAI超神经