6 个月前

摘要

多标签图像分类任务旨在识别图像中所有存在的物体标签。尽管该领域已发展多年，但小尺寸物体、相似物体以及具有高条件概率的物体仍是基于卷积神经网络（CNN）的现有模型面临的主要瓶颈，这主要受限于卷积核的表征能力。近年来，视觉Transformer网络通过自注意力机制实现了像素级特征提取，能够表达更丰富的局部语义信息，但在挖掘全局空间依赖关系方面仍显不足。本文指出基于CNN的方法所面临的三个关键问题，并探索引入特定的Transformer模块以解决这些问题的可行性。为此，我们提出了一种名为多标签Transformer（Multi-label Transformer, MlTr）的新架构，该架构采用窗口划分、窗口内像素级注意力以及跨窗口注意力机制，显著提升了多标签图像分类任务的性能。在多个主流多标签数据集上，MlTr取得了当前最优的实验结果：在MS-COCO数据集上达到88.5%，在Pascal-VOC数据集上达到95.8%，在NUS-WIDE数据集上达到65.5%。相关代码将很快发布于 https://github.com/starmemda/MlTr/。

源 PDF