4 个月前

基于Transformer的双关系图用于多标签图像识别

基于Transformer的双关系图用于多标签图像识别

摘要

在单张图像中同时识别多个对象仍然是一个具有挑战性的任务,涉及识别领域的多个问题,如不同对象尺度、不一致的外观以及混淆的类间关系。近期的研究主要通过统计标签共现和语言词嵌入来增强模糊的语义。不同于这些研究,在本文中,我们提出了一种基于Transformer的双关系学习框架,通过探索结构关系图和语义关系图两个方面的相关性来构建互补关系。结构关系图旨在通过开发跨尺度Transformer架构捕捉对象上下文中的长程相关性。语义图则动态建模图像对象的语义含义,并施加显式的语义感知约束。此外,我们将学到的结构关系融入到语义图中,构建了一个联合关系图以获得更稳健的表示。通过这两种有效的关系图的协同学习,我们的方法在两个流行的多标签识别基准数据集(即MS-COCO和VOC 2007)上达到了新的最先进水平。

代码仓库

iCVTEAM/TDRG
官方
pytorch

基准测试

基准方法指标
multi-label-classification-on-ms-cocoTDRG-R101(448×448)
mAP: 84.6
multi-label-classification-on-ms-cocoTDRG-R101(576×576)
mAP: 86.0
multi-label-classification-on-pascal-voc-2007TDRG-R101(448×448)
mAP: 95.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer的双关系图用于多标签图像识别 | 论文 | HyperAI超神经