HyperAIHyperAI

Command Palette

Search for a command to run...

基于度量学习与注意力头的精准高效多标签图像分类

Kirill Prokofiev Vladislav Sovrasov

摘要

多标签图像分类旨在从给定图像中预测一组标签。与仅为每张图像分配单一标签的多类分类不同,该方法适用于更广泛的应用场景。在本研究中,我们重新审视了两种主流的多标签分类方法:基于Transformer的头部结构与基于标签关系信息图的处理分支。尽管目前普遍认为基于Transformer的头部结构在性能上优于基于图的方法,但我们指出,若采用合适的训练策略,基于图的方法可在仅损失极小精度的前提下,显著降低推理阶段的计算资源消耗。在我们的训练策略中,我们摒弃了多标签分类领域广泛采用的Asymmetric Loss(ASL)标准,转而引入其基于度量学习的改进版本。该方法在每个二分类子问题中,利用来自主干网络的L2L_2L2归一化特征向量,并最大化正样本与负样本归一化表示之间的夹角,从而增强特征间的判别能力。相比在未归一化特征上使用二元交叉熵损失,该策略能够实现更优的分类边界分离效果。基于所提出的损失函数与训练策略,我们在多个广泛使用的多标签分类基准数据集上(包括MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500)取得了单模态方法中的最先进(SOTA)性能。本方法的源代码已作为OpenVINO Training Extensions的一部分开源,项目地址为:https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供