4 个月前

学习构建动态树结构以捕捉视觉上下文

学习构建动态树结构以捕捉视觉上下文

摘要

我们提出构建动态树结构,将图像中的对象置于视觉上下文中,以帮助完成诸如场景图生成和视觉问答等视觉推理任务。我们的视觉上下文树模型(简称VCTree)在现有结构化对象表示方法(如链式结构和全连接图)中具有两大优势:1)高效的二叉树结构能够编码对象之间的固有并行/层次关系,例如,“衣物”和“裤子”通常共同出现且属于“人物”;2)动态结构根据不同的图像和任务而变化,允许对象之间进行更加内容/任务特定的信息传递。为了构建VCTree,我们设计了一个评分函数,用于计算每对对象之间的任务依赖有效性,该树是评分矩阵的最大生成树的二叉版本。接着,通过双向TreeLSTM对视觉上下文进行编码,并由任务特定模型进行解码。我们开发了一种混合学习程序,将端任务监督学习与树结构强化学习相结合,其中前者的评估结果作为后者结构探索的自我批评依据。在两个需要上下文推理的基准数据集上的实验结果表明,VCTree不仅超越了当前最先进的结果,还发现了可解释的视觉上下文结构:Visual Genome用于场景图生成,VQA2.0用于视觉问答。

代码仓库

ihaeyong/unbiased-sgg
pytorch
GitHub 中提及
Karim-53/SGG
pytorch
GitHub 中提及
zacharie12/zacharie
pytorch
GitHub 中提及

基准测试

基准方法指标
panoptic-scene-graph-generation-on-psgVCTree
R@20: 20.6
mR@20: 9.70
scene-graph-generation-on-visual-genomeVCTree
Recall@50: 27.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习构建动态树结构以捕捉视觉上下文 | 论文 | HyperAI超神经