3 个月前

基于图结构的网络用于图像-文本匹配

基于图结构的网络用于图像-文本匹配

摘要

图像-文本匹配近年来受到广泛关注,因其在视觉与语言之间建立了桥梁。其核心挑战在于如何学习图像与文本之间的对应关系。现有方法主要基于物体共现统计来学习粗粒度的对应关系,但难以捕捉细粒度的短语级对应。本文提出一种新型的图结构匹配网络(Graph Structured Matching Network, GSMN),用于学习细粒度的对应关系。GSMN将物体、关系和属性显式建模为一种结构化短语,不仅支持对物体、关系和属性分别进行对应学习,更有助于实现结构化短语的细粒度匹配。这一目标通过节点级匹配与结构级匹配共同实现:节点级匹配将某一模态中的每个节点(可为物体、关系或属性)与另一模态中的相关节点建立关联;随后,这些关联节点在结构级匹配中通过融合邻域关系,联合推断出细粒度的匹配结果。大量实验表明,GSMN在多个基准数据集上均优于当前最先进的方法,在Flickr30K和MSCOCO数据集上,Recall@1指标分别实现了近7%和2%的相对提升。代码将公开发布于:https://github.com/CrossmodalGroup/GSMN。

代码仓库

CrossmodalGroup/GSMN
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
cross-modal-retrieval-on-flickr30kGSMN
Image-to-text R@1: 76.4
Image-to-text R@10: 97.3
Image-to-text R@5: 94.3
Text-to-image R@1: 57.4
Text-to-image R@10: 89.0
Text-to-image R@5: 82.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图结构的网络用于图像-文本匹配 | 论文 | HyperAI超神经