
摘要
现实世界中的图像数据通常表现出各类别图像数量显著不均衡的特点,从而形成长尾分布。针对长尾视觉识别问题,一种有效且简洁的方法是分别采用实例平衡采样和类别平衡采样来学习特征表示与分类器。本文中,我们提出了一种新框架,其核心观察是:在长尾设置下,仅通过实例采样所学习到的特征表示远非最优。我们的主要贡献是一种新的训练方法,称为类别平衡蒸馏(Class-Balanced Distillation, CBD),该方法利用知识蒸馏机制来提升特征表示能力。CBD在第二阶段允许特征表示在第一阶段所学习到的教师模型的引导下进行演化,且第二阶段采用类别平衡采样策略,以重点关注样本稀少的类别。该框架天然支持多教师机制,能够融合多个模型的集成信息,进一步增强识别性能。实验结果表明,所提出的方法在多个长尾识别基准数据集(如ImageNet-LT、iNaturalist17和iNaturalist18)上均持续优于现有最先进方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-inaturalist-2018 | CBD-ENS (ResNet-50) | Top-1 Accuracy: 73.6% |
| image-classification-on-inaturalist-2018 | CBD-ENS (ResNet-101) | Top-1 Accuracy: 75.3% |
| long-tail-learning-on-imagenet-lt | CBD-ENS (ResNet-152) | Top-1 Accuracy: 57.7 |
| long-tail-learning-on-imagenet-lt | CBD-ENS (ResNet-50) | Top-1 Accuracy: 55.6 |
| long-tail-learning-on-inaturalist-2018 | CBD-ENS (ResNet-101) | Top-1 Accuracy: 75.3% |
| long-tail-learning-on-inaturalist-2018 | CBD-ENS (ResNet-50) | Top-1 Accuracy: 73.6% |