4 个月前

堆叠交叉注意力机制用于图像-文本匹配

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

摘要

本文研究了图像-文本匹配的问题。通过推断物体或其他显著元素（如雪、天空、草坪）与句子中相应词汇之间的潜在语义对齐关系，可以捕捉视觉与语言之间的细粒度互动，使图像-文本匹配更具可解释性。以往的研究要么简单地聚合所有可能的区域-词汇对的相似性，而没有区分重要和次要的词汇或区域；要么采用多步骤注意力机制来捕捉有限数量的语义对齐关系，但这种方法的可解释性较差。在本文中，我们提出了堆叠交叉注意力（Stacked Cross Attention）方法，利用图像区域和句子中的词汇作为上下文，发现完整的潜在对齐关系并推断图像-文本相似度。我们的方法在MS-COCO和Flickr30K数据集上取得了最先进的结果。在Flickr30K数据集中，我们的方法在基于图像查询的文本检索任务上相对优于当前最佳方法22.1%，在基于文本查询的图像检索任务上相对优于当前最佳方法18.2%（均基于Recall@1指标）。在MS-COCO数据集中，我们的方法相对提高了句子检索性能17.8%和图像检索性能16.6%（均基于5K测试集上的Recall@1指标）。代码已公开发布于：https://github.com/kuanghuei/SCAN。

代码仓库

abhidipbhattacharyya/srl_aware_ret

pytorch

GitHub 中提及

MysteryVaibhav/SCAN

pytorch

GitHub 中提及

adlnlp/attention_vl

pytorch

GitHub 中提及

hthoai/image-text-matching

pytorch

kuanghuei/SCAN

官方

pytorch

GitHub 中提及

idejie/SCAN

pytorch

GitHub 中提及

基准测试

基准	方法	指标
cross-modal-retrieval-on-coco-2014	SCAN	Image-to-text R@1: 50.4 Image-to-text R@10: 90.0 Image-to-text R@5: 82.2 Text-to-image R@1: 38.6 Text-to-image R@10: 80.4 Text-to-image R@5: 69.3
cross-modal-retrieval-on-flickr30k	SCAN	Image-to-text R@1: 67.4 Image-to-text R@10: 95.8 Image-to-text R@5: 90.3 Text-to-image R@1: 48.6 Text-to-image R@10: 85.2 Text-to-image R@5: 77.7
image-retrieval-on-flickr30k-1k-test	SCAN i-t	R@1: 44.0 R@10: 82.6 R@5: 74.2
image-retrieval-on-photochat	SCAN	R1: 10.4 R@10: 37.1 R@5: 27.0 Sum(R@1,5,10): 74.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供