
摘要
多标签图像分类任务旨在识别图像中所有存在的物体标签。尽管该领域已发展多年,但小尺寸物体、相似物体以及具有高条件概率的物体仍是基于卷积神经网络(CNN)的现有模型面临的主要瓶颈,这主要受限于卷积核的表征能力。近年来,视觉Transformer网络通过自注意力机制实现了像素级特征提取,能够表达更丰富的局部语义信息,但在挖掘全局空间依赖关系方面仍显不足。本文指出基于CNN的方法所面临的三个关键问题,并探索引入特定的Transformer模块以解决这些问题的可行性。为此,我们提出了一种名为多标签Transformer(Multi-label Transformer, MlTr)的新架构,该架构采用窗口划分、窗口内像素级注意力以及跨窗口注意力机制,显著提升了多标签图像分类任务的性能。在多个主流多标签数据集上,MlTr取得了当前最优的实验结果:在MS-COCO数据集上达到88.5%,在Pascal-VOC数据集上达到95.8%,在NUS-WIDE数据集上达到65.5%。相关代码将很快发布于 https://github.com/starmemda/MlTr/。
代码仓库
starmemda/MlTr
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-classification-on-ms-coco | MlTr-XL(ImageNet-21K pretraining, resolution 384) | mAP: 90.0 |
| multi-label-classification-on-ms-coco | MlTr-L(ImageNet-21K pretraining, resolution 384) | mAP: 88.5 |