6 个月前

摘要

现实世界的数据通常呈现出长尾分布，存在严重的类别不平衡问题，这对深度识别模型构成了巨大挑战。本文识别出在不平衡学习背景下标签价值所面临的一个持续性困境：一方面，标签提供的监督信号通常能带来优于无监督方法的性能；另一方面，严重不平衡的数据会自然引发分类器中的“标签偏差”（label bias），导致决策边界被多数类显著扭曲。在本研究中，我们系统地探讨了标签的这两个方面。我们从理论和实验两个层面证明，类别不平衡学习在半监督和自监督两种范式下均可显著受益。具体而言，我们验证了以下两点：（1）积极方面：不平衡的标签仍然具有价值——在拥有更多无标签数据的前提下，可通过半监督方式有效利用原始标签与额外数据，从而缓解标签偏差，显著提升最终分类器的性能；（2）消极方面：我们进一步指出，不平衡标签并非在所有情况下都有效——在自监督预训练阶段表现良好的模型，其性能始终优于对应的基线方法，表明在某些情况下，依赖原始不平衡标签反而可能限制模型潜力。我们在大规模不平衡数据集上进行了大量实验，验证了所提出策略的理论合理性，结果表明其性能显著优于现有最先进方法。本研究的深刻发现提示我们，有必要重新审视真实长尾任务中不平衡标签的使用方式。相关代码已开源，地址为：https://github.com/YyzHarry/imbalanced-semi-self。

源 PDF