3 个月前

CUDA:面向长尾识别的数据增强课程

CUDA:面向长尾识别的数据增强课程

摘要

类别不平衡问题在现实世界任务中频繁出现,传统深度学习算法在类别分布不均的训练数据上往往表现出性能下降。为缓解这一问题,已有大量方法通过重加权或重采样训练样本,试图在各类别之间实现平衡。这类重平衡策略旨在增强少数类样本对模型输出的影响,同时降低多数类样本的主导作用。然而,由于少数类样本数量有限,其提取的特征表示质量往往较差。为应对这一限制,一些方法尝试通过利用多数类的特征来增强少数类的表示能力。尽管近年来相关研究已十分丰富,但针对应选择哪些类别进行数据增强以及增强强度应如何确定等问题,尚缺乏深入的分析与系统研究。在本研究中,我们首先系统分析了数据增强程度与各类别性能之间的关联,发现为不同类别分配适当的增强强度,是有效缓解类别不平衡问题的关键。基于这一发现,我们提出了一种简单而高效的新型课程学习机制——CUDA(CUrriculum of Data Augmentation for long-tailed recognition),旨在自动为每一类别确定最优的数据增强强度。CUDA可无缝集成至现有的长尾识别方法中,无需复杂修改。实验结果表明,在CIFAR-100-LT、ImageNet-LT以及iNaturalist 2018等多个具有显著类别不平衡特性的数据集上,CUDA相较于当前最先进的方法,显著提升了模型的泛化性能。

代码仓库

基准测试

基准方法指标
long-tail-learning-on-cifar-100-lt-r-10BCL+CUDA
Error Rate: 35.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CUDA:面向长尾识别的数据增强课程 | 论文 | HyperAI超神经