HyperAIHyperAI

Command Palette

Search for a command to run...

多模态卷积神经网络用于图像与句子匹配

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

摘要

在本文中,我们提出了一种多模态卷积神经网络(m-CNN)用于图像与句子的匹配。我们的m-CNN提供了一个端到端的框架,通过卷积架构来利用图像表示、词语组合以及两种模态之间的匹配关系。具体而言,该模型由一个图像CNN编码图像内容,以及一个匹配CNN学习图像和句子的联合表示组成。匹配CNN将词语组合成不同的语义片段,并在不同层次上学习图像与这些组合片段之间的跨模态关系,从而充分挖掘图像与句子之间的匹配关系。实验结果表明,在双向图像和句子检索的基准数据库上,所提出的m-CNN能够有效捕捉图像与句子匹配所需的信息。特别是在Flickr30K和Microsoft COCO数据库上的双向图像和句子检索任务中,我们提出的m-CNN达到了当前最先进的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态卷积神经网络用于图像与句子匹配 | 论文 | HyperAI超神经