3 个月前

多层语义表示网络用于多标签图像分类

多层语义表示网络用于多标签图像分类

摘要

多标签图像分类(Multi-label Image Classification, MLIC)是一项基础且具有实际应用价值的任务,其目标是为一张图像分配多个可能的标签。近年来,众多基于深度卷积神经网络(CNN)的方法被提出,这些方法通过建模标签之间的相关性,以挖掘标签的语义信息并学习图像的语义表示。本文在这一研究方向上进一步推进,同时提升了标签相关性建模能力与语义表示学习效果。一方面,除了关注单个标签的局部语义外,本文提出进一步挖掘多个标签之间共享的全局语义信息;另一方面,现有方法主要在CNN的最后一个卷积层学习语义表示,然而已有研究表明,CNN不同层次的特征图捕捉了不同层级或尺度的视觉特征,且具有不同的判别能力。因此,本文提出在多个卷积层上联合学习语义表示。为此,本文设计了一种多层语义表示网络(Multi-layered Semantic Representation Network, MSRN)。该网络通过建模标签间的相关性,同时挖掘标签的局部与全局语义,并利用所获得的标签语义信息,通过注意力机制引导多层特征的语义表示学习。在VOC 2007、COCO、NUS-WIDE和Apparel四个主流基准数据集上的大量实验表明,所提出的MSRN在性能上优于当前最先进的模型,展现出较强的竞争力。

代码仓库

chehao2628/MSRN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-ms-cocoMSRN
mAP: 83.4
multi-label-classification-on-nus-wideMSRN
MAP: 61.5
multi-label-classification-on-pascal-voc-2007MSRN(pretrain from MS-COCO)
mAP: 96.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供