
摘要
图像-文本匹配在连接视觉与语言模态方面发挥着关键作用,近年来通过利用图像与句子之间的全局对齐关系,或图像区域与词语之间的局部对齐关系,已取得显著进展。然而,如何充分挖掘这些对齐信息以推断更精确的匹配得分,仍是一个尚未充分探索的问题。为此,本文提出了一种新颖的相似性图推理与注意力过滤(Similarity Graph Reasoning and Attention Filtration, SGRAF)网络用于图像-文本匹配任务。具体而言,首先学习基于向量的相似性表示,以更全面地刻画局部与全局对齐关系;随后,引入基于图卷积神经网络的相似性图推理(Similarity Graph Reasoning, SGR)模块,通过融合局部与全局对齐信息,推断出具有上下文感知能力的相似性;进一步地,设计了相似性注意力过滤(Similarity Attention Filtration, SAF)模块,通过有选择性地关注重要且具有代表性的对齐关系,同时抑制无意义对齐带来的干扰,实现对多种对齐信息的有效整合。实验结果表明,所提方法在Flickr30K和MSCOCO两个基准数据集上均取得了当前最优的性能表现;同时,通过大量定性实验与深入分析,验证了SGR与SAF模块的良好可解释性。
代码仓库
Paranioar/SGRAF
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-coco-2014 | SGRAF | Image-to-text R@1: 57.8 Image-to-text R@10: 91.6 Image-to-text R@5: 84.9 Text-to-image R@1: 41.9 Text-to-image R@10: 81.3 Text-to-image R@5: 70.7 |
| cross-modal-retrieval-on-flickr30k | SGRAF | Image-to-text R@1: 77.8 Image-to-text R@10: 97.4 Image-to-text R@5: 94.1 Text-to-image R@1: 58.5 Text-to-image R@10: 88.8 Text-to-image R@5: 83.0 |
| image-retrieval-on-flickr30k-1k-test | SGRAF | R@1: 58.5 R@10: 88.8 R@5: 83.0 |