4 个月前

多模态卷积神经网络用于图像与句子匹配

多模态卷积神经网络用于图像与句子匹配

摘要

在本文中,我们提出了一种多模态卷积神经网络(m-CNN)用于图像与句子的匹配。我们的m-CNN提供了一个端到端的框架,通过卷积架构来利用图像表示、词语组合以及两种模态之间的匹配关系。具体而言,该模型由一个图像CNN编码图像内容,以及一个匹配CNN学习图像和句子的联合表示组成。匹配CNN将词语组合成不同的语义片段,并在不同层次上学习图像与这些组合片段之间的跨模态关系,从而充分挖掘图像与句子之间的匹配关系。实验结果表明,在双向图像和句子检索的基准数据库上,所提出的m-CNN能够有效捕捉图像与句子匹配所需的信息。特别是在Flickr30K和Microsoft COCO数据库上的双向图像和句子检索任务中,我们提出的m-CNN达到了当前最先进的性能。

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-testmCNN
R@1: 26.2
R@10: 69.6
R@5: 56.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态卷积神经网络用于图像与句子匹配 | 论文 | HyperAI超神经