3 个月前

基于类别原型的标签噪声清理方法

基于类别原型的标签噪声清理方法

摘要

基于半监督学习的方法是当前处理标签噪声问题的最先进(SOTA)解决方案,其核心思想是首先学习一个无监督的标签清洗器(label cleaner),将训练样本划分为两类:用于清洁数据的有标签集合和用于噪声数据的无标签集合。通常情况下,该清洗器通过拟合每个样本训练损失的分布来构建混合模型实现。然而,这种建模过程是类别无关的(class agnostic),并假设不同类别中清洁样本与噪声样本的损失分布保持一致。遗憾的是,在实际应用中,由于各类别学习难度存在差异,这一假设往往不成立,从而导致标签噪声划分标准次优。本文揭示了这一长期被忽视的关键问题,并提出了一种简单而有效的解决方案,命名为基于类别原型的标签噪声清洗器(Class Prototype-based label noise Cleaner, CPC)。与以往方法对所有类别一视同仁不同,CPC 充分考虑了损失分布的类别异质性(loss distribution heterogeneity),并引入类别感知的调制机制,实现对清洁与噪声数据的更精准划分。CPC 同时利用损失分布建模与特征空间中的类内一致性正则化(intra-class consistency regularization),从而更有效地识别和分离真实标签与噪声标签。本文从期望最大化(Expectation-Maximization, EM)框架出发,对所提方法的有效性进行了理论分析与解释。我们在多个主流标签噪声基准数据集上进行了广泛实验,包括 CIFAR-10、CIFAR-100、Clothing1M 和 WebVision。实验结果表明,CPC 在所有基准上均能稳定提升模型性能。相关代码与预训练模型将开源发布于:https://github.com/hjjpku/CPC.git。

代码仓库

基准测试

基准方法指标
image-classification-on-clothing1mCPC
Accuracy: 75.40±0.10%
image-classification-on-mini-webvision-1-0CPC
ImageNet Top-1 Accuracy: 75.75±0.14
ImageNet Top-5 Accuracy: 93.49±0.25
Top-1 Accuracy: 79.63±0.08
Top-5 Accuracy: 93.46±0.10

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于类别原型的标签噪声清理方法 | 论文 | HyperAI超神经