6 个月前

摘要

类别不平衡问题在现实世界任务中频繁出现，传统深度学习算法在类别分布不均的训练数据上往往表现出性能下降。为缓解这一问题，已有大量方法通过重加权或重采样训练样本，试图在各类别之间实现平衡。这类重平衡策略旨在增强少数类样本对模型输出的影响，同时降低多数类样本的主导作用。然而，由于少数类样本数量有限，其提取的特征表示质量往往较差。为应对这一限制，一些方法尝试通过利用多数类的特征来增强少数类的表示能力。尽管近年来相关研究已十分丰富，但针对应选择哪些类别进行数据增强以及增强强度应如何确定等问题，尚缺乏深入的分析与系统研究。在本研究中，我们首先系统分析了数据增强程度与各类别性能之间的关联，发现为不同类别分配适当的增强强度，是有效缓解类别不平衡问题的关键。基于这一发现，我们提出了一种简单而高效的新型课程学习机制——CUDA（CUrriculum of Data Augmentation for long-tailed recognition），旨在自动为每一类别确定最优的数据增强强度。CUDA可无缝集成至现有的长尾识别方法中，无需复杂修改。实验结果表明，在CIFAR-100-LT、ImageNet-LT以及iNaturalist 2018等多个具有显著类别不平衡特性的数据集上，CUDA相较于当前最先进的方法，显著提升了模型的泛化性能。

源 PDF