7 个月前

卷积神经网络

多模态表征

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

摘要

在本文中，我们提出了一种多模态卷积神经网络（m-CNN）用于图像与句子的匹配。我们的m-CNN提供了一个端到端的框架，通过卷积架构来利用图像表示、词语组合以及两种模态之间的匹配关系。具体而言，该模型由一个图像CNN编码图像内容，以及一个匹配CNN学习图像和句子的联合表示组成。匹配CNN将词语组合成不同的语义片段，并在不同层次上学习图像与这些组合片段之间的跨模态关系，从而充分挖掘图像与句子之间的匹配关系。实验结果表明，在双向图像和句子检索的基准数据库上，所提出的m-CNN能够有效捕捉图像与句子匹配所需的信息。特别是在Flickr30K和Microsoft COCO数据库上的双向图像和句子检索任务中，我们提出的m-CNN达到了当前最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

多模态表征

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

摘要

在本文中，我们提出了一种多模态卷积神经网络（m-CNN）用于图像与句子的匹配。我们的m-CNN提供了一个端到端的框架，通过卷积架构来利用图像表示、词语组合以及两种模态之间的匹配关系。具体而言，该模型由一个图像CNN编码图像内容，以及一个匹配CNN学习图像和句子的联合表示组成。匹配CNN将词语组合成不同的语义片段，并在不同层次上学习图像与这些组合片段之间的跨模态关系，从而充分挖掘图像与句子之间的匹配关系。实验结果表明，在双向图像和句子检索的基准数据库上，所提出的m-CNN能够有效捕捉图像与句子匹配所需的信息。特别是在Flickr30K和Microsoft COCO数据库上的双向图像和句子检索任务中，我们提出的m-CNN达到了当前最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供