4 个月前

堆叠交叉注意力机制用于图像-文本匹配

堆叠交叉注意力机制用于图像-文本匹配

摘要

本文研究了图像-文本匹配的问题。通过推断物体或其他显著元素(如雪、天空、草坪)与句子中相应词汇之间的潜在语义对齐关系,可以捕捉视觉与语言之间的细粒度互动,使图像-文本匹配更具可解释性。以往的研究要么简单地聚合所有可能的区域-词汇对的相似性,而没有区分重要和次要的词汇或区域;要么采用多步骤注意力机制来捕捉有限数量的语义对齐关系,但这种方法的可解释性较差。在本文中,我们提出了堆叠交叉注意力(Stacked Cross Attention)方法,利用图像区域和句子中的词汇作为上下文,发现完整的潜在对齐关系并推断图像-文本相似度。我们的方法在MS-COCO和Flickr30K数据集上取得了最先进的结果。在Flickr30K数据集中,我们的方法在基于图像查询的文本检索任务上相对优于当前最佳方法22.1%,在基于文本查询的图像检索任务上相对优于当前最佳方法18.2%(均基于Recall@1指标)。在MS-COCO数据集中,我们的方法相对提高了句子检索性能17.8%和图像检索性能16.6%(均基于5K测试集上的Recall@1指标)。代码已公开发布于:https://github.com/kuanghuei/SCAN。

代码仓库

abhidipbhattacharyya/srl_aware_ret
pytorch
GitHub 中提及
MysteryVaibhav/SCAN
pytorch
GitHub 中提及
adlnlp/attention_vl
pytorch
GitHub 中提及
kuanghuei/SCAN
官方
pytorch
GitHub 中提及
idejie/SCAN
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014SCAN
Image-to-text R@1: 50.4
Image-to-text R@10: 90.0
Image-to-text R@5: 82.2
Text-to-image R@1: 38.6
Text-to-image R@10: 80.4
Text-to-image R@5: 69.3
cross-modal-retrieval-on-flickr30kSCAN
Image-to-text R@1: 67.4
Image-to-text R@10: 95.8
Image-to-text R@5: 90.3
Text-to-image R@1: 48.6
Text-to-image R@10: 85.2
Text-to-image R@5: 77.7
image-retrieval-on-flickr30k-1k-testSCAN i-t
R@1: 44.0
R@10: 82.6
R@5: 74.2
image-retrieval-on-photochatSCAN
R1: 10.4
R@10: 37.1
R@5: 27.0
Sum(R@1,5,10): 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
堆叠交叉注意力机制用于图像-文本匹配 | 论文 | HyperAI超神经