
摘要
在单张图像中同时识别多个对象仍然是一个具有挑战性的任务,涉及识别领域的多个问题,如不同对象尺度、不一致的外观以及混淆的类间关系。近期的研究主要通过统计标签共现和语言词嵌入来增强模糊的语义。不同于这些研究,在本文中,我们提出了一种基于Transformer的双关系学习框架,通过探索结构关系图和语义关系图两个方面的相关性来构建互补关系。结构关系图旨在通过开发跨尺度Transformer架构捕捉对象上下文中的长程相关性。语义图则动态建模图像对象的语义含义,并施加显式的语义感知约束。此外,我们将学到的结构关系融入到语义图中,构建了一个联合关系图以获得更稳健的表示。通过这两种有效的关系图的协同学习,我们的方法在两个流行的多标签识别基准数据集(即MS-COCO和VOC 2007)上达到了新的最先进水平。
代码仓库
iCVTEAM/TDRG
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-classification-on-ms-coco | TDRG-R101(448×448) | mAP: 84.6 |
| multi-label-classification-on-ms-coco | TDRG-R101(576×576) | mAP: 86.0 |
| multi-label-classification-on-pascal-voc-2007 | TDRG-R101(448×448) | mAP: 95.0 |