6 个月前

多模态表征

卷积神经网络

Kunpeng Li Yulun Zhang Kai Li Yuanyuan Li Yun Fu

摘要

图像-文本匹配作为连接视觉与语言领域的热点研究课题，仍面临诸多挑战，主要原因在于当前图像的表示通常缺乏与其对应文本描述中所包含的全局语义概念。为解决这一问题，本文提出一种简洁且可解释的推理模型，用于生成能够捕捉场景中关键物体及语义概念的视觉表征。具体而言，我们首先建立图像区域之间的关联，并通过图卷积网络（Graph Convolutional Networks）进行推理，生成具有语义关系特征的表示。随后，我们引入门控机制与记忆机制，对这些增强语义关系的特征进行全局语义推理，筛选出具有判别性的信息，并逐步构建整个场景的表征。实验结果表明，所提方法在MS-COCO与Flickr30K数据集上的图像-文本匹配任务中达到了新的最先进水平。在MS-COCO数据集上，图像检索的Recall@1相对当前最优方法提升6.8%，文本描述检索提升4.8%（基于1K测试集）；在Flickr30K数据集上，图像检索性能相对提升12.6%，文本描述检索提升5.8%（Recall@1）。相关代码已开源，地址为：https://github.com/KunpengLi1994/VSRN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

卷积神经网络

Kunpeng Li Yulun Zhang Kai Li Yuanyuan Li Yun Fu

摘要

图像-文本匹配作为连接视觉与语言领域的热点研究课题，仍面临诸多挑战，主要原因在于当前图像的表示通常缺乏与其对应文本描述中所包含的全局语义概念。为解决这一问题，本文提出一种简洁且可解释的推理模型，用于生成能够捕捉场景中关键物体及语义概念的视觉表征。具体而言，我们首先建立图像区域之间的关联，并通过图卷积网络（Graph Convolutional Networks）进行推理，生成具有语义关系特征的表示。随后，我们引入门控机制与记忆机制，对这些增强语义关系的特征进行全局语义推理，筛选出具有判别性的信息，并逐步构建整个场景的表征。实验结果表明，所提方法在MS-COCO与Flickr30K数据集上的图像-文本匹配任务中达到了新的最先进水平。在MS-COCO数据集上，图像检索的Recall@1相对当前最优方法提升6.8%，文本描述检索提升4.8%（基于1K测试集）；在Flickr30K数据集上，图像检索性能相对提升12.6%，文本描述检索提升5.8%（Recall@1）。相关代码已开源，地址为：https://github.com/KunpengLi1994/VSRN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

视觉语义推理在图像-文本匹配中的应用 | 论文 | HyperAI超神经