3 个月前

NGC:一种面向开放世界噪声数据学习的统一框架

NGC:一种面向开放世界噪声数据学习的统一框架

摘要

在机器学习系统的训练与测试阶段,噪声数据的存在十分普遍,这不可避免地导致模型性能下降。过去十年中,已有大量研究聚焦于在分布内(in-distribution, IND)噪声标签下的学习问题,即部分训练样本被错误地标记为与其真实类别不匹配的标签。然而,在实际应用中,还需考虑分布外(out-of-distribution, OOD)样本的影响,即那些不属于任何已知类别的样本,而这一问题尚未得到充分探索。为此,本文提出一种新的问题设定——开放世界噪声数据学习(Learning with Open-world Noisy Data, LOND),其目标是从包含IND与OOD噪声混合的数据集中,同时学习一个分类器和一个OOD检测器。本文提出一种基于图结构的新框架——噪声图清洗(Noisy Graph Cleaning, NGC),该方法通过利用数据的几何结构以及模型预测的置信度,自动筛选出干净样本。该方法无需额外训练,在测试阶段即可直接基于学习得到的类别原型,实现对OOD样本的检测与剔除。我们在多个基准数据集上进行了实验,针对不同类型的噪声,结果表明,所提方法在性能上显著优于现有最先进方法。

基准测试

基准方法指标
image-classification-on-mini-webvision-1-0NGC (Inception-ResNet-v2)
ImageNet Top-1 Accuracy: 74.44
ImageNet Top-5 Accuracy: 91.04
Top-1 Accuracy: 79.16
Top-5 Accuracy: 91.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NGC:一种面向开放世界噪声数据学习的统一框架 | 论文 | HyperAI超神经