4 个月前

基于对齐的视觉-文本特征的开放词汇多标签分类与双模解码器

基于对齐的视觉-文本特征的开放词汇多标签分类与双模解码器

摘要

在计算机视觉中,多标签识别是一项具有许多实际应用的重要任务,但对先前未见过的标签进行分类仍然是一个重大挑战。本文提出了一种新颖的算法——对齐双模态分类器(Aligned Dual moDality ClaSsifier, ADDS),该算法包括一个视觉特征与文本特征之间进行对齐的双模态解码器(Dual-Modal decoder, DM-decoder),用于开放词汇表多标签分类任务。随后,我们设计了一种简单而有效的方法——金字塔前向传播(Pyramid-Forwarding),以提高高分辨率输入的性能。此外,选择性语言监督被应用于进一步提升模型性能。我们在多个标准基准数据集(NUS-WIDE、ImageNet-1k、ImageNet-21k 和 MS-COCO)上进行了广泛的实验,结果表明我们的方法显著优于以往的方法,并在开放词汇表多标签分类、传统多标签分类以及一种极端情况——单标签到多标签分类中提供了最先进的性能。在这种极端情况下,训练于单标签数据集(如 ImageNet-1k 和 ImageNet-21k)的模型在多标签数据集(如 MS-COCO 和 NUS-WIDE)上进行测试。

基准测试

基准方法指标
multi-label-classification-on-ms-cocoADDS(ViT-L-336, resolution 640)
mAP: 93.41
multi-label-classification-on-ms-cocoADDS(ViT-L-336, resolution 1344)
mAP: 93.54
multi-label-classification-on-ms-cocoADDS(ViT-L-336, resolution 336)
mAP: 91.76
multi-label-zero-shot-learning-on-imagenet-1kADDS
mAP: 67.10
multi-label-zero-shot-learning-on-nus-wideADDS (ViT-L-336, resolution 336)
mAP: 39.01
multi-label-zero-shot-learning-on-nus-wideADDS (ViT-B-32, resolution 224)
mAP: 36.56

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于对齐的视觉-文本特征的开放词汇多标签分类与双模解码器 | 论文 | HyperAI超神经