
摘要
现实世界中的数据通常呈现出长尾分布,且存在严重的类别不平衡问题,其中多数类在训练过程中占据主导地位,从而扭曲少数类的决策边界。近年来,研究者们探索了监督对比学习在长尾识别任务中的潜力,并证实其能够显著提升模型性能。然而,在本文中,我们指出尽管监督对比学习有助于提升整体表现,但以往的基线方法因数据分布不均衡而引入了较差的特征均匀性。这种不均匀性表现为少数类样本在特征空间中难以实现有效分离。为解决该问题,我们提出一种面向目标的监督对比学习方法(Targeted Supervised Contrastive Learning, TSC)。该方法通过在超球面上生成一组均匀分布的目标点,引导不同类别的特征在训练过程中向这些独特且均匀分布的目标点收敛。这一机制强制所有类别(包括少数类)在特征空间中保持均匀分布,从而优化类别边界,提升模型在长尾数据下的泛化能力。在多个数据集上的实验结果表明,TSC在长尾识别任务中达到了当前最优的性能水平。
代码仓库
lth14/targeted-supcon
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-tail-learning-on-cifar-10-lt-r-10 | TSC | Error Rate: 11.3 |
| long-tail-learning-on-cifar-10-lt-r-100 | TSC(ResNet-32) | Error Rate: 21.3 |
| long-tail-learning-on-cifar-100-lt-r-100 | TSC(ResNet-32) | Error Rate: 56.2 |
| long-tail-learning-on-imagenet-lt | TSC(ResNet-50) | Top-1 Accuracy: 52.4 |
| long-tail-learning-on-inaturalist-2018 | TSC(ResNet-50) | Top-1 Accuracy: 69.7% |