
摘要
多标签图像分类旨在从给定图像中预测一组标签。与仅为每张图像分配单一标签的多类分类不同,该方法适用于更广泛的应用场景。在本研究中,我们重新审视了两种主流的多标签分类方法:基于Transformer的头部结构与基于标签关系信息图的处理分支。尽管目前普遍认为基于Transformer的头部结构在性能上优于基于图的方法,但我们指出,若采用合适的训练策略,基于图的方法可在仅损失极小精度的前提下,显著降低推理阶段的计算资源消耗。在我们的训练策略中,我们摒弃了多标签分类领域广泛采用的Asymmetric Loss(ASL)标准,转而引入其基于度量学习的改进版本。该方法在每个二分类子问题中,利用来自主干网络的$L_2$归一化特征向量,并最大化正样本与负样本归一化表示之间的夹角,从而增强特征间的判别能力。相比在未归一化特征上使用二元交叉熵损失,该策略能够实现更优的分类边界分离效果。基于所提出的损失函数与训练策略,我们在多个广泛使用的多标签分类基准数据集上(包括MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500)取得了单模态方法中的最先进(SOTA)性能。本方法的源代码已作为OpenVINO Training Extensions的一部分开源,项目地址为:https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel
代码仓库
openvinotoolkit/deep-object-reid
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-classification-on-ms-coco | MLD-TResNet-L-AAM[640x640] | mAP: 91.30 |
| multi-label-classification-on-nus-wide | MLD-TResNet-L-AAM[448x448] | MAP: 68.30 |
| multi-label-classification-on-pascal-voc-2007 | MLD-TResNetL-AAM (resolution 448, pretrain from OpenImages V6) | mAP: 96.70 |