HyperAIHyperAI

Command Palette

Search for a command to run...

重新思考标签在提升类别不平衡学习中的价值

Yuzhe Yang Zhi Xu

摘要

现实世界的数据通常呈现出长尾分布,存在严重的类别不平衡问题,这对深度识别模型构成了巨大挑战。本文识别出在不平衡学习背景下标签价值所面临的一个持续性困境:一方面,标签提供的监督信号通常能带来优于无监督方法的性能;另一方面,严重不平衡的数据会自然引发分类器中的“标签偏差”(label bias),导致决策边界被多数类显著扭曲。在本研究中,我们系统地探讨了标签的这两个方面。我们从理论和实验两个层面证明,类别不平衡学习在半监督和自监督两种范式下均可显著受益。具体而言,我们验证了以下两点:(1)积极方面:不平衡的标签仍然具有价值——在拥有更多无标签数据的前提下,可通过半监督方式有效利用原始标签与额外数据,从而缓解标签偏差,显著提升最终分类器的性能;(2)消极方面:我们进一步指出,不平衡标签并非在所有情况下都有效——在自监督预训练阶段表现良好的模型,其性能始终优于对应的基线方法,表明在某些情况下,依赖原始不平衡标签反而可能限制模型潜力。我们在大规模不平衡数据集上进行了大量实验,验证了所提出策略的理论合理性,结果表明其性能显著优于现有最先进方法。本研究的深刻发现提示我们,有必要重新审视真实长尾任务中不平衡标签的使用方式。相关代码已开源,地址为:https://github.com/YyzHarry/imbalanced-semi-self


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考标签在提升类别不平衡学习中的价值 | 论文 | HyperAI超神经