8 个月前

摘要

我们提出构建动态树结构，将图像中的对象置于视觉上下文中，以帮助完成诸如场景图生成和视觉问答等视觉推理任务。我们的视觉上下文树模型（简称VCTree）在现有结构化对象表示方法（如链式结构和全连接图）中具有两大优势：1）高效的二叉树结构能够编码对象之间的固有并行/层次关系，例如，“衣物”和“裤子”通常共同出现且属于“人物”；2）动态结构根据不同的图像和任务而变化，允许对象之间进行更加内容/任务特定的信息传递。为了构建VCTree，我们设计了一个评分函数，用于计算每对对象之间的任务依赖有效性，该树是评分矩阵的最大生成树的二叉版本。接着，通过双向TreeLSTM对视觉上下文进行编码，并由任务特定模型进行解码。我们开发了一种混合学习程序，将端任务监督学习与树结构强化学习相结合，其中前者的评估结果作为后者结构探索的自我批评依据。在两个需要上下文推理的基准数据集上的实验结果表明，VCTree不仅超越了当前最先进的结果，还发现了可解释的视觉上下文结构：Visual Genome用于场景图生成，VQA2.0用于视觉问答。

源 PDF