3 个月前

图像-文本匹配中的相似性推理与过滤

图像-文本匹配中的相似性推理与过滤

摘要

图像-文本匹配在连接视觉与语言模态方面发挥着关键作用,近年来通过利用图像与句子之间的全局对齐关系,或图像区域与词语之间的局部对齐关系,已取得显著进展。然而,如何充分挖掘这些对齐信息以推断更精确的匹配得分,仍是一个尚未充分探索的问题。为此,本文提出了一种新颖的相似性图推理与注意力过滤(Similarity Graph Reasoning and Attention Filtration, SGRAF)网络用于图像-文本匹配任务。具体而言,首先学习基于向量的相似性表示,以更全面地刻画局部与全局对齐关系;随后,引入基于图卷积神经网络的相似性图推理(Similarity Graph Reasoning, SGR)模块,通过融合局部与全局对齐信息,推断出具有上下文感知能力的相似性;进一步地,设计了相似性注意力过滤(Similarity Attention Filtration, SAF)模块,通过有选择性地关注重要且具有代表性的对齐关系,同时抑制无意义对齐带来的干扰,实现对多种对齐信息的有效整合。实验结果表明,所提方法在Flickr30K和MSCOCO两个基准数据集上均取得了当前最优的性能表现;同时,通过大量定性实验与深入分析,验证了SGR与SAF模块的良好可解释性。

代码仓库

Paranioar/SGRAF
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014SGRAF
Image-to-text R@1: 57.8
Image-to-text R@10: 91.6
Image-to-text R@5: 84.9
Text-to-image R@1: 41.9
Text-to-image R@10: 81.3
Text-to-image R@5: 70.7
cross-modal-retrieval-on-flickr30kSGRAF
Image-to-text R@1: 77.8
Image-to-text R@10: 97.4
Image-to-text R@5: 94.1
Text-to-image R@1: 58.5
Text-to-image R@10: 88.8
Text-to-image R@5: 83.0
image-retrieval-on-flickr30k-1k-testSGRAF
R@1: 58.5
R@10: 88.8
R@5: 83.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
图像-文本匹配中的相似性推理与过滤 | 论文 | HyperAI超神经