3 个月前

多标签分类中的非对称损失

多标签分类中的非对称损失

摘要

在典型的多标签学习场景中,一张图像平均仅包含少量正标签,而负标签数量则远多于正标签。这种正负样本的不平衡性主导了优化过程,导致在训练过程中对正标签的梯度关注不足,从而影响模型的准确率。本文提出一种新颖的非对称损失函数(ASL),该函数对正样本与负样本采用不同的处理机制。ASL能够动态地降低简单负样本的权重,并对其施加硬阈值处理,同时还能有效剔除可能存在误标注的样本。我们展示了ASL如何实现不同样本概率的均衡化,以及这种均衡性如何转化为更高的mAP(平均精度均值)表现。在多个主流多标签数据集上,包括MS-COCO、Pascal-VOC、NUS-WIDE和Open Images,ASL均取得了当前最优的性能。此外,我们还验证了ASL在其他任务中的适用性,如单标签分类与目标检测。ASL具有高效性、实现简便,且不增加训练时间或计算复杂度。代码实现已开源,地址为:https://github.com/Alibaba-MIIL/ASL。

代码仓库

mrT23/TResNet
pytorch
GitHub 中提及
kalelpark/ral
pytorch
GitHub 中提及
Alibaba-MIIL/ASL
官方
pytorch
GitHub 中提及
Alibaba-MIIL/TResNet
pytorch
GitHub 中提及
SlongLiu/ASL_reproduce
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-ms-cocoTResNet-XL (resolution 640)
mAP: 88.4
multi-label-classification-on-ms-cocoTResNet-L (resolution 448)
mAP: 86.6
multi-label-classification-on-nus-wideTResNet-L (resolution 448)
MAP: 65.2
multi-label-classification-on-openimages-v6TResNet-L
mAP: 86.3
multi-label-classification-on-pascal-voc-2007TResNet-L (resolution 448, pretrain from ImageNet)
mAP: 94.6
multi-label-classification-on-pascal-voc-2007TResNet-L (resolution 448, pretrain from MS-COCO)
mAP: 95.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供