3 个月前

类别差异化难度平衡损失用于解决类别不平衡问题

类别差异化难度平衡损失用于解决类别不平衡问题

摘要

类别不平衡是现实世界数据集中面临的主要挑战之一,其中少数类别(称为多数类)的数据样本数量远超其余类别(称为少数类)。在使用此类数据集训练深度神经网络时,模型性能通常会偏向于多数类。以往的大多数方法通过以不同方式为少数类分配更高权重来缓解类别不平衡问题(例如,数据重采样、代价敏感学习)。然而,我们认为,可用训练数据的数量并不总是判断权重分配策略的可靠依据,因为某些少数类即便仅有少量训练样本,也可能已得到充分表示。对这类类别过度加权反而可能导致模型整体性能下降。我们主张,模型所感知到的“类别难度”才是决定权重分配更为关键的因素。基于此,本文提出一种新型损失函数——类别难度平衡损失(Class-wise Difficulty-Balanced loss,简称 CDB 损失),该损失函数根据样本所属类别的难度动态分配权重。值得注意的是,所分配的权重会随着模型在训练过程中对各类别难度的感知变化而动态调整。我们在图像(人为构造的类别不平衡 MNIST、长尾分布 CIFAR 与 ImageNet-LT)和视频(EGTEA)数据集上进行了大量实验。结果表明,无论数据类型为图像还是视频,CDB 损失在各类别不平衡数据集上均持续优于近期提出的多种损失函数。

代码仓库

hitachi-rd-cv/CDB-loss
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-tail-learning-on-cifar-100-lt-r-10CDB-loss
Error Rate: 41.26
long-tail-learning-on-cifar-100-lt-r-100CDB-loss
Error Rate: 57.43
long-tail-learning-on-egteaCDB-loss (3D- ResNeXt101)
Average Precision: 63.86
Average Recall: 66.24
long-tail-learning-on-imagenet-ltCDB-loss (ResNet 10)
Top-1 Accuracy: 38.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
类别差异化难度平衡损失用于解决类别不平衡问题 | 论文 | HyperAI超神经