3 个月前

重新思考标签在提升类别不平衡学习中的价值

重新思考标签在提升类别不平衡学习中的价值

摘要

现实世界的数据通常呈现出长尾分布,存在严重的类别不平衡问题,这对深度识别模型构成了巨大挑战。本文识别出在不平衡学习背景下标签价值所面临的一个持续性困境:一方面,标签提供的监督信号通常能带来优于无监督方法的性能;另一方面,严重不平衡的数据会自然引发分类器中的“标签偏差”(label bias),导致决策边界被多数类显著扭曲。在本研究中,我们系统地探讨了标签的这两个方面。我们从理论和实验两个层面证明,类别不平衡学习在半监督和自监督两种范式下均可显著受益。具体而言,我们验证了以下两点:(1)积极方面:不平衡的标签仍然具有价值——在拥有更多无标签数据的前提下,可通过半监督方式有效利用原始标签与额外数据,从而缓解标签偏差,显著提升最终分类器的性能;(2)消极方面:我们进一步指出,不平衡标签并非在所有情况下都有效——在自监督预训练阶段表现良好的模型,其性能始终优于对应的基线方法,表明在某些情况下,依赖原始不平衡标签反而可能限制模型潜力。我们在大规模不平衡数据集上进行了大量实验,验证了所提出策略的理论合理性,结果表明其性能显著优于现有最先进方法。本研究的深刻发现提示我们,有必要重新审视真实长尾任务中不平衡标签的使用方式。相关代码已开源,地址为:https://github.com/YyzHarry/imbalanced-semi-self。

代码仓库

YyzHarry/imbalanced-semi-self
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-tail-learning-on-cifar-10-lt-r-10LDAM-DRW + SSP
Error Rate: 11.47
long-tail-learning-on-cifar-10-lt-r-100LDAM-DRW + SSP
Error Rate: 22.17
long-tail-learning-on-cifar-100-lt-r-10LDAM-DRW + SSP
Error Rate: 41.09
long-tail-learning-on-cifar-100-lt-r-100LDAM-DRW + SSP
Error Rate: 56.57
long-tail-learning-on-cifar-100-lt-r-50LDAM-DRW + SSP
Error Rate: 52.89
long-tail-learning-on-imagenet-ltcRT + SSP
Top-1 Accuracy: 51.3
long-tail-learning-on-inaturalist-2018cRT + SSP
Top-1 Accuracy: 68.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考标签在提升类别不平衡学习中的价值 | 论文 | HyperAI超神经