3 个月前

视觉语义推理在图像-文本匹配中的应用

视觉语义推理在图像-文本匹配中的应用

摘要

图像-文本匹配作为连接视觉与语言领域的热点研究课题,仍面临诸多挑战,主要原因在于当前图像的表示通常缺乏与其对应文本描述中所包含的全局语义概念。为解决这一问题,本文提出一种简洁且可解释的推理模型,用于生成能够捕捉场景中关键物体及语义概念的视觉表征。具体而言,我们首先建立图像区域之间的关联,并通过图卷积网络(Graph Convolutional Networks)进行推理,生成具有语义关系特征的表示。随后,我们引入门控机制与记忆机制,对这些增强语义关系的特征进行全局语义推理,筛选出具有判别性的信息,并逐步构建整个场景的表征。实验结果表明,所提方法在MS-COCO与Flickr30K数据集上的图像-文本匹配任务中达到了新的最先进水平。在MS-COCO数据集上,图像检索的Recall@1相对当前最优方法提升6.8%,文本描述检索提升4.8%(基于1K测试集);在Flickr30K数据集上,图像检索性能相对提升12.6%,文本描述检索提升5.8%(Recall@1)。相关代码已开源,地址为:https://github.com/KunpengLi1994/VSRN。

代码仓库

woodfrog/vse_infty
pytorch
GitHub 中提及
KunpengLi1994/VSRN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014VSRN
Image-to-text R@1: 53.0
Image-to-text R@10: 89.4
Image-to-text R@5: 81.1
Text-to-image R@1: 40.5
Text-to-image R@10: 81.1
Text-to-image R@5: 70.6
image-retrieval-on-flickr30k-1k-testVSRN
R@1: 54.7
R@10: 88.2
R@5: 81.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉语义推理在图像-文本匹配中的应用 | 论文 | HyperAI超神经