
摘要
多标签图像识别的任务是预测图像中出现的一组对象标签。由于对象通常在图像中共同出现,因此建模标签之间的依赖关系对于提高识别性能至关重要。为了捕捉和探索这些重要的依赖关系,我们提出了一种基于图卷积网络(Graph Convolutional Network, GCN)的多标签分类模型。该模型在对象标签上构建了一个有向图,其中每个节点(标签)由该标签的词嵌入表示,而GCN则被训练用于将此标签图映射为一组相互依赖的对象分类器。这些分类器应用于由另一个子网络提取的图像描述符,从而使整个网络可以端到端地进行训练。此外,我们提出了一种新颖的重加权方案,以创建有效的标签相关矩阵来指导GCN中节点间的信息传播。在两个多标签图像识别数据集上的实验表明,我们的方法明显优于现有的其他最先进方法。此外,可视化分析显示,通过我们的模型学习到的分类器保持了有意义的语义拓扑结构。
代码仓库
megvii-research/ml-gcn
pytorch
GitHub 中提及
Megvii-Nanjing/ML_GCN
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-tail-learning-on-coco-mlt | ML-GCN(ResNet-50) | Average mAP: 44.24 |
| long-tail-learning-on-voc-mlt | ML-GCN(ResNet-50) | Average mAP: 68.92 |
| multi-label-classification-on-pascal-voc-2007 | ML-GCN (pretrain from ImageNet) | mAP: 94.0 |