6 个月前

摘要

传统的图像-文本检索方法主要关注图像中出现的视觉对象的索引，而忽略了这些对象之间的相互作用。然而，在文本描述中，对象的出现及其相互关系同样重要且具有同等价值。场景图（Scene Graph）表示法是一种适用于图像-文本匹配任务的合适方法，因其能够有效捕捉对象间的相互关系信息，从而取得了良好的性能。该方法将图像与文本均在场景图层面进行表示，并将检索任务转化为场景图匹配问题。本文提出一种名为局部与全局场景图匹配（Local and Global Scene Graph Matching, LGSGM）的模型，通过引入额外的图卷积网络（Graph Convolution Network, GCN），增强了现有先进方法的性能，以更好地捕获图结构的全局语义信息。具体而言，针对一张图像及其对应标题所生成的一对场景图，采用两个独立的模型分别学习每个图中节点和边的特征表示。随后，利用具有孪生结构（Siamese-structure）的图卷积网络将场景图嵌入为向量形式。最后，通过融合图级（graph-level）与向量级（vector-level）的表示信息，计算图像-文本对之间的相似度。实验结果表明，通过多层次信息的联合建模，所提出的LGSGM模型相较于基线方法，在Flickr30k数据集上的召回率提升了超过10%，显著改善了图像-文本检索的性能。

源 PDF 查看代码