3 个月前

基于深度局部与全局场景图匹配的图像-文本检索

基于深度局部与全局场景图匹配的图像-文本检索

摘要

传统的图像-文本检索方法主要关注图像中出现的视觉对象的索引,而忽略了这些对象之间的相互作用。然而,在文本描述中,对象的出现及其相互关系同样重要且具有同等价值。场景图(Scene Graph)表示法是一种适用于图像-文本匹配任务的合适方法,因其能够有效捕捉对象间的相互关系信息,从而取得了良好的性能。该方法将图像与文本均在场景图层面进行表示,并将检索任务转化为场景图匹配问题。本文提出一种名为局部与全局场景图匹配(Local and Global Scene Graph Matching, LGSGM)的模型,通过引入额外的图卷积网络(Graph Convolution Network, GCN),增强了现有先进方法的性能,以更好地捕获图结构的全局语义信息。具体而言,针对一张图像及其对应标题所生成的一对场景图,采用两个独立的模型分别学习每个图中节点和边的特征表示。随后,利用具有孪生结构(Siamese-structure)的图卷积网络将场景图嵌入为向量形式。最后,通过融合图级(graph-level)与向量级(vector-level)的表示信息,计算图像-文本对之间的相似度。实验结果表明,通过多层次信息的联合建模,所提出的LGSGM模型相较于基线方法,在Flickr30k数据集上的召回率提升了超过10%,显著改善了图像-文本检索的性能。

代码仓库

m2man/LGSGM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-retrieval-on-flickr30kLGSGM
Recall@1: 57.4
Recall@10: 90.2
Recall@5: 84.1
Recall@Sum: 231.7
image-retrieval-on-flickr30kGSMN
Recall@10: 89
Recall@5: 82.3
Recall@Sum: 228.7
image-retrieval-on-flickr30k-1k-testLGSGM
R@1: 57.4
R@10: 90.2
R@5: 84.1
image-to-text-retrieval-on-flickr30kLGSGM
Recall@1: 71
Recall@10: 96.1
Recall@5: 91.9
Recall@Sum: 259
image-to-text-retrieval-on-flickr30kGSMN
Recall@1: 76.4
Recall@10: 97.3
Recall@5: 94.3
Recall@Sum: 268

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度局部与全局场景图匹配的图像-文本检索 | 论文 | HyperAI超神经