
摘要
我们提出构建动态树结构,将图像中的对象置于视觉上下文中,以帮助完成诸如场景图生成和视觉问答等视觉推理任务。我们的视觉上下文树模型(简称VCTree)在现有结构化对象表示方法(如链式结构和全连接图)中具有两大优势:1)高效的二叉树结构能够编码对象之间的固有并行/层次关系,例如,“衣物”和“裤子”通常共同出现且属于“人物”;2)动态结构根据不同的图像和任务而变化,允许对象之间进行更加内容/任务特定的信息传递。为了构建VCTree,我们设计了一个评分函数,用于计算每对对象之间的任务依赖有效性,该树是评分矩阵的最大生成树的二叉版本。接着,通过双向TreeLSTM对视觉上下文进行编码,并由任务特定模型进行解码。我们开发了一种混合学习程序,将端任务监督学习与树结构强化学习相结合,其中前者的评估结果作为后者结构探索的自我批评依据。在两个需要上下文推理的基准数据集上的实验结果表明,VCTree不仅超越了当前最先进的结果,还发现了可解释的视觉上下文结构:Visual Genome用于场景图生成,VQA2.0用于视觉问答。
代码仓库
KaihuaTang/VCTree-Visual-Question-Answering
pytorch
GitHub 中提及
ihaeyong/unbiased-sgg
pytorch
GitHub 中提及
KaihuaTang/VCTree-Scene-Graph-Generation
pytorch
GitHub 中提及
Karim-53/SGG
pytorch
GitHub 中提及
KaihuaTang/Scene-Graph-Benchmark.pytorch
pytorch
GitHub 中提及
zacharie12/zacharie
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-scene-graph-generation-on-psg | VCTree | R@20: 20.6 mR@20: 9.70 |
| scene-graph-generation-on-visual-genome | VCTree | Recall@50: 27.9 |