3 个月前

基于度量学习与注意力头的精准高效多标签图像分类

基于度量学习与注意力头的精准高效多标签图像分类

摘要

多标签图像分类旨在从给定图像中预测一组标签。与仅为每张图像分配单一标签的多类分类不同,该方法适用于更广泛的应用场景。在本研究中,我们重新审视了两种主流的多标签分类方法:基于Transformer的头部结构与基于标签关系信息图的处理分支。尽管目前普遍认为基于Transformer的头部结构在性能上优于基于图的方法,但我们指出,若采用合适的训练策略,基于图的方法可在仅损失极小精度的前提下,显著降低推理阶段的计算资源消耗。在我们的训练策略中,我们摒弃了多标签分类领域广泛采用的Asymmetric Loss(ASL)标准,转而引入其基于度量学习的改进版本。该方法在每个二分类子问题中,利用来自主干网络的$L_2$归一化特征向量,并最大化正样本与负样本归一化表示之间的夹角,从而增强特征间的判别能力。相比在未归一化特征上使用二元交叉熵损失,该策略能够实现更优的分类边界分离效果。基于所提出的损失函数与训练策略,我们在多个广泛使用的多标签分类基准数据集上(包括MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500)取得了单模态方法中的最先进(SOTA)性能。本方法的源代码已作为OpenVINO Training Extensions的一部分开源,项目地址为:https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel

代码仓库

openvinotoolkit/deep-object-reid
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-ms-cocoMLD-TResNet-L-AAM[640x640]
mAP: 91.30
multi-label-classification-on-nus-wideMLD-TResNet-L-AAM[448x448]
MAP: 68.30
multi-label-classification-on-pascal-voc-2007MLD-TResNetL-AAM (resolution 448, pretrain from OpenImages V6)
mAP: 96.70

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于度量学习与注意力头的精准高效多标签图像分类 | 论文 | HyperAI超神经