7 个月前

摘要

尽管在图像分类和检测等视觉感知任务上取得了进展，计算机仍然难以理解场景中物体之间的整体相互依赖关系，例如物体之间的关系或其属性。现有的方法通常忽略捕捉不同物体实例之间交互作用的全局上下文线索，只能通过为所有可能的关系穷尽训练单独的检测器来识别少数几种类型。为了捕捉这种全局相互依赖关系，我们提出了一种深度变结构强化学习（VRL）框架，以顺序方式发现整个图像中的物体关系和属性。首先，利用语言先验构建一个有向语义动作图，以提供物体类别、谓词和属性之间语义相关性的丰富而紧凑的表示。接下来，我们在动作图上进行变结构遍历，在每个步骤中根据当前状态和历史动作构建一个小的、自适应的动作集。特别是，我们使用一种模糊意识的物体挖掘方案来解决物体检测器无法区分的物体类别之间的语义模糊问题。然后，我们使用深度强化学习（RL）框架进行顺序预测，在状态向量中结合全局上下文线索和先前提取短语的语义嵌入。我们在Visual Relationship Detection（VRD）数据集和大规模Visual Genome数据集上的实验验证了VRL的优势，该方法能够在涉及数千种关系和属性类型的数据库上实现显著更好的检测结果。此外，我们还展示了VRL能够通过在共享图节点上学到的相关性来预测未见过的类型。关键词：视觉感知任务、图像分类、图像检测、全局上下文线索、深度变结构强化学习（VRL）、有向语义动作图、谓词、属性、模糊意识的物体挖掘方案、深度强化学习（RL）、状态向量、Visual Relationship Detection（VRD）数据集、Visual Genome数据集

源 PDF