6 个月前

摘要

多标签图像分类旨在从给定图像中预测一组标签。与仅为每张图像分配单一标签的多类分类不同，该方法适用于更广泛的应用场景。在本研究中，我们重新审视了两种主流的多标签分类方法：基于Transformer的头部结构与基于标签关系信息图的处理分支。尽管目前普遍认为基于Transformer的头部结构在性能上优于基于图的方法，但我们指出，若采用合适的训练策略，基于图的方法可在仅损失极小精度的前提下，显著降低推理阶段的计算资源消耗。在我们的训练策略中，我们摒弃了多标签分类领域广泛采用的Asymmetric Loss（ASL）标准，转而引入其基于度量学习的改进版本。该方法在每个二分类子问题中，利用来自主干网络的 $L_2$ 归一化特征向量，并最大化正样本与负样本归一化表示之间的夹角，从而增强特征间的判别能力。相比在未归一化特征上使用二元交叉熵损失，该策略能够实现更优的分类边界分离效果。基于所提出的损失函数与训练策略，我们在多个广泛使用的多标签分类基准数据集上（包括MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500）取得了单模态方法中的最先进（SOTA）性能。本方法的源代码已作为OpenVINO Training Extensions的一部分开源，项目地址为：https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel