3 个月前

MlTr:基于Transformer的多标签分类

MlTr:基于Transformer的多标签分类

摘要

多标签图像分类任务旨在识别图像中所有存在的物体标签。尽管该领域已发展多年,但小尺寸物体、相似物体以及具有高条件概率的物体仍是基于卷积神经网络(CNN)的现有模型面临的主要瓶颈,这主要受限于卷积核的表征能力。近年来,视觉Transformer网络通过自注意力机制实现了像素级特征提取,能够表达更丰富的局部语义信息,但在挖掘全局空间依赖关系方面仍显不足。本文指出基于CNN的方法所面临的三个关键问题,并探索引入特定的Transformer模块以解决这些问题的可行性。为此,我们提出了一种名为多标签Transformer(Multi-label Transformer, MlTr)的新架构,该架构采用窗口划分、窗口内像素级注意力以及跨窗口注意力机制,显著提升了多标签图像分类任务的性能。在多个主流多标签数据集上,MlTr取得了当前最优的实验结果:在MS-COCO数据集上达到88.5%,在Pascal-VOC数据集上达到95.8%,在NUS-WIDE数据集上达到65.5%。相关代码将很快发布于 https://github.com/starmemda/MlTr/。

代码仓库

starmemda/MlTr
官方
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-ms-cocoMlTr-XL(ImageNet-21K pretraining, resolution 384)
mAP: 90.0
multi-label-classification-on-ms-cocoMlTr-L(ImageNet-21K pretraining, resolution 384)
mAP: 88.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MlTr:基于Transformer的多标签分类 | 论文 | HyperAI超神经