
摘要
在计算机视觉中,多标签识别是一项具有许多实际应用的重要任务,但对先前未见过的标签进行分类仍然是一个重大挑战。本文提出了一种新颖的算法——对齐双模态分类器(Aligned Dual moDality ClaSsifier, ADDS),该算法包括一个视觉特征与文本特征之间进行对齐的双模态解码器(Dual-Modal decoder, DM-decoder),用于开放词汇表多标签分类任务。随后,我们设计了一种简单而有效的方法——金字塔前向传播(Pyramid-Forwarding),以提高高分辨率输入的性能。此外,选择性语言监督被应用于进一步提升模型性能。我们在多个标准基准数据集(NUS-WIDE、ImageNet-1k、ImageNet-21k 和 MS-COCO)上进行了广泛的实验,结果表明我们的方法显著优于以往的方法,并在开放词汇表多标签分类、传统多标签分类以及一种极端情况——单标签到多标签分类中提供了最先进的性能。在这种极端情况下,训练于单标签数据集(如 ImageNet-1k 和 ImageNet-21k)的模型在多标签数据集(如 MS-COCO 和 NUS-WIDE)上进行测试。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-classification-on-ms-coco | ADDS(ViT-L-336, resolution 640) | mAP: 93.41 |
| multi-label-classification-on-ms-coco | ADDS(ViT-L-336, resolution 1344) | mAP: 93.54 |
| multi-label-classification-on-ms-coco | ADDS(ViT-L-336, resolution 336) | mAP: 91.76 |
| multi-label-zero-shot-learning-on-imagenet-1k | ADDS | mAP: 67.10 |
| multi-label-zero-shot-learning-on-nus-wide | ADDS (ViT-L-336, resolution 336) | mAP: 39.01 |
| multi-label-zero-shot-learning-on-nus-wide | ADDS (ViT-B-32, resolution 224) | mAP: 36.56 |