3 个月前

LMPT:面向长尾多标签视觉识别的类别特定嵌入损失提示调优

LMPT:面向长尾多标签视觉识别的类别特定嵌入损失提示调优

摘要

长尾多标签视觉识别(Long-tailed Multi-label Visual Recognition, LTML)任务由于标签共现关系以及数据分布极度不均衡,具有极高的挑战性。本文提出一种统一的LTML框架——基于类别特定嵌入损失的提示调优方法(Prompt Tuning with Class-specific Embedding Loss, LMPT),通过融合文本与图像模态数据,捕捉类别间的语义特征交互,在提升头部类别性能的同时,显著改善尾部类别的识别效果。具体而言,LMPT引入了一种具有类别感知软边距(class-aware soft margin)和重加权机制的嵌入损失函数,利用文本描述(如图像标题)来学习具有类别特异性的上下文表示,从而有助于建立类别之间的语义关联,尤其在头部类别与尾部类别之间构建更有效的语义桥梁。此外,为应对类别不平衡问题,LMPT采用分布平衡损失(distribution-balanced loss)作为分类损失函数,在不损害头部类别性能的前提下,进一步提升尾部类别的识别表现。在VOC-LT和COCO-LT两个基准数据集上进行了大量实验,结果表明,所提方法显著优于现有最先进方法,并在零样本CLIP模型的基础上实现了显著性能提升。相关代码已开源,完整项目地址为:https://github.com/richard-peng-xia/LMPT。

代码仓库

richard-peng-xia/LMPT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
long-tail-learning-on-coco-mltLMPT(ResNet-50)
Average mAP: 58.97
long-tail-learning-on-coco-mltLMPT(ViT-B/16)
Average mAP: 66.19
long-tail-learning-on-voc-mltLMPT(ResNet-50)
Average mAP: 85.44
long-tail-learning-on-voc-mltLMPT(ViT-B/16)
Average mAP: 87.88

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LMPT:面向长尾多标签视觉识别的类别特定嵌入损失提示调优 | 论文 | HyperAI超神经