3 个月前

Knockoffs-SPR:噪声标签学习中的干净样本选择

Knockoffs-SPR:噪声标签学习中的干净样本选择

摘要

噪声标签训练集通常会导致神经网络泛化能力与鲁棒性的下降。本文提出了一种具有理论保障的清洁样本选择框架,用于处理带噪声标签的学习任务。具体而言,我们首先提出一种可扩展的惩罚回归方法(Scalable Penalized Regression, SPR),用于建模网络特征与独热编码标签之间的线性关系。在SPR中,通过回归模型求解出的零均值偏移参数来识别清洁数据。我们从理论上证明,在一定条件下,SPR能够准确恢复出清洁样本。然而,在一般场景下,这些理论条件可能不再成立,导致部分噪声数据被错误地选为清洁数据。为解决该问题,我们进一步提出一种基于敲扑滤波器(Knockoff filters)的自适应数据处理方法——Knockoffs-SPR,该方法可严格保证所选清洁样本中的误选率(False-Selection-Rate, FSR)得到控制。为进一步提升效率,我们设计了一种分治算法,将整个训练集划分为若干小块,实现并行求解,从而使得该框架具备处理大规模数据集的可扩展性。尽管Knockoffs-SPR可作为标准监督学习流水线中的样本选择模块,我们还进一步将其与半监督学习算法相结合,充分利用噪声数据作为无标签数据的潜在支持。在多个基准数据集及真实世界噪声数据集上的实验结果表明,所提框架具有显著有效性,并验证了Knockoffs-SPR的理论性质。相关代码与预训练模型已开源,地址为:https://github.com/Yikai-Wang/Knockoffs-SPR。

代码仓库

yikai-wang/knockoffs-spr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-clothing1mKnockoffs-SPR
Accuracy: 75.20%
learning-with-noisy-labels-on-clothing1mKnockoffs-SPR
Test Accuracy: 75.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Knockoffs-SPR:噪声标签学习中的干净样本选择 | 论文 | HyperAI超神经