3 个月前

中心性与一致性:基于两阶段清洁样本识别的学习方法在实例相关噪声标签下的应用

中心性与一致性:基于两阶段清洁样本识别的学习方法在实例相关噪声标签下的应用

摘要

以噪声标签训练的深度模型容易发生过拟合,且在泛化能力上表现不佳。现有大多数方法基于一个理想假设:标签噪声为类别条件噪声(class-conditional noise),即同一类别的样本遵循相同的噪声模型,且与样本特征无关。然而在实际场景中,真实世界的噪声模式通常更为精细,表现为实例相关(instance-dependent)的噪声,这在类别间存在不平衡的情况下尤其构成严峻挑战。针对上述问题,本文提出一种两阶段的干净样本识别方法。首先,我们采用基于类别级别的特征聚类策略,对靠近各类别预测中心的样本进行早期干净样本识别。值得注意的是,为缓解类别不平衡问题,我们根据预测熵对稀有类别进行聚合处理。其次,针对那些接近真实类别边界的剩余样本(通常混杂着实例相关噪声的样本),我们提出一种新颖的一致性驱动分类方法,通过比较两个分类头输出的一致性来识别干净样本:一致性越高,样本为干净样本的概率越大。在多个具有挑战性的基准数据集上的大量实验表明,所提方法在性能上显著优于现有最先进方法。

代码仓库

uitrbn/tscsi_idn
官方
pytorch

基准测试

基准方法指标
image-classification-on-clothing1mCC
Accuracy: 75.4%
image-classification-on-mini-webvision-1-0CC
ImageNet Top-1 Accuracy: 76.08
ImageNet Top-5 Accuracy: 93.86
Top-1 Accuracy: 79.36
Top-5 Accuracy: 93.64

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
中心性与一致性:基于两阶段清洁样本识别的学习方法在实例相关噪声标签下的应用 | 论文 | HyperAI超神经