
摘要
本文提出了一种简单而高效的方法,用于解决多标签分类问题。所提出的方法利用Transformer解码器来查询某一类别标签的存在性。采用Transformer的核心动机在于,能够自适应地提取不同标签对应的局部判别性特征,这一特性在单张图像中存在多个对象的情况下尤为重要。Transformer解码器中内嵌的交叉注意力模块,为将标签嵌入作为查询,从视觉主干网络生成的特征图中探测并聚合与类别相关的特征,从而支持后续的二分类任务,提供了一种高效途径。与以往方法相比,该新框架结构简洁,仅使用标准的Transformer和视觉主干网络,同时具备卓越的性能,在包括MS-COCO、PASCAL VOC、NUS-WIDE和Visual Genome在内的五个多标签分类数据集上,均持续优于此前所有方法。特别地,我们在MS-COCO数据集上取得了91.3%的mAP(平均精度均值)成绩。我们期望该方法紧凑的结构、简单的实现方式以及优异的性能,能够成为多标签分类任务及未来研究的强有力基线。代码将于近期在https://github.com/SlongLiu/query2labels 公开。
代码仓库
averyfallson/rmffn
pytorch
GitHub 中提及
SlongLiu/query2labels
官方
pytorch
GitHub 中提及
curt-tigges/query2label
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-classification-on-ms-coco | Q2L-CvT(ImageNet-21K pretraining, resolution 384) | mAP: 91.3 |
| multi-label-classification-on-ms-coco | Q2L-R101(resolution 448) | mAP: 84.9 |
| multi-label-classification-on-ms-coco | Q2L-SwinL(ImageNet-21K pretraining, resolution 384) | mAP: 90.5 |
| multi-label-classification-on-ms-coco | Q2L-TResL(ImageNet-21K pretraining, resolution 640) | mAP: 90.3 |
| multi-label-classification-on-nus-wide | Q2L-TResL(resoluition 448) | MAP: 66.3 |
| multi-label-classification-on-nus-wide | Q2L-CvT(resolution 384, ImageNet-21K pretrained) | MAP: 70.1 |
| multi-label-classification-on-nus-wide | Q2L-R101(resolution 448) | MAP: 65.0 |
| multi-label-classification-on-pascal-voc-2007 | Q2L-TResL(resolution 448) | mAP: 96.1 |
| multi-label-classification-on-pascal-voc-2007 | Q2L-CvT(ImageNet-21K pretrained, resolution 384) | mAP: 97.3 |
| multi-label-classification-on-pascal-voc-2007 | Q2L-TResL(ImageNet-21K pretrained, resolution 448) | mAP: 96.9 |
| multi-label-classification-on-pascal-voc-2012 | Q2L-TResL(448 resolution) | mAP: 96.6 |