
摘要
类别不平衡数据问题在于,由于少数类样本不足,导致分类器的泛化性能下降。本文提出一种新颖的少数类过采样方法,通过利用多数类丰富的上下文信息作为背景图像,生成多样化的少数类样本以实现数据增强。为提升少数类样本的多样性,我们的核心思想是将来自少数类的图像贴合到多数类提供的富含上下文的背景图像上。该方法结构简单,可轻松与现有的长尾识别方法结合使用。通过大量实验与消融研究,我们实证验证了所提过采样方法的有效性。在无需任何网络结构修改或复杂算法的前提下,该方法在多个长尾分类基准上取得了当前最优的性能表现。相关代码已开源,地址为:https://github.com/naver-ai/cmo。
代码仓库
naver-ai/cmo
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-inaturalist-2018 | BS-CMO (ResNet-50) | Top-1 Accuracy: 74.0% |
| long-tail-learning-on-cifar-100-lt-r-100 | LDAM-DRW + CMO | Error Rate: 52.8 |
| long-tail-learning-on-cifar-100-lt-r-100 | CE-DRW | Error Rate: 58.9 |
| long-tail-learning-on-cifar-100-lt-r-100 | Balanced Softmax + CMO | Error Rate: 53.4 |
| long-tail-learning-on-cifar-100-lt-r-100 | RIDE 3 experts + CMO | Error Rate: 50 |
| long-tail-learning-on-imagenet-lt | BS-CMO (ResNet-50) | Top-1 Accuracy: 58.0 |