7 个月前

多模态表征

计算机视觉

Yan Huang Wei Wang Liang Wang

摘要

有效的图像与句子匹配依赖于如何准确测量它们的全局视觉-语义相似度。基于观察到这种全局相似度源自图像（对象）和句子（单词）实例之间多个局部相似度的复杂聚合，我们提出了一种选择性的多模态长短期记忆网络（sm-LSTM），用于实例感知的图像与句子匹配。sm-LSTM 在每个时间步包含一个多模态上下文调节注意力机制，可以有选择地关注图像和句子的一对实例，通过预测图像和句子的实例感知显著图来实现这一目标。对于选定的一对实例，其表示是根据预测的显著图获得的，然后进行比较以测量它们的局部相似度。通过在几个时间步内类似地测量多个局部相似度，sm-LSTM 依次将这些局部相似度与隐藏状态聚合，最终得到所需的全局相似度评分。广泛的实验表明，我们的模型能够很好地匹配具有复杂内容的图像和句子，并在两个公开基准数据集上取得了最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

Yan Huang Wei Wang Liang Wang

摘要

有效的图像与句子匹配依赖于如何准确测量它们的全局视觉-语义相似度。基于观察到这种全局相似度源自图像（对象）和句子（单词）实例之间多个局部相似度的复杂聚合，我们提出了一种选择性的多模态长短期记忆网络（sm-LSTM），用于实例感知的图像与句子匹配。sm-LSTM 在每个时间步包含一个多模态上下文调节注意力机制，可以有选择地关注图像和句子的一对实例，通过预测图像和句子的实例感知显著图来实现这一目标。对于选定的一对实例，其表示是根据预测的显著图获得的，然后进行比较以测量它们的局部相似度。通过在几个时间步内类似地测量多个局部相似度，sm-LSTM 依次将这些局部相似度与隐藏状态聚合，最终得到所需的全局相似度评分。广泛的实验表明，我们的模型能够很好地匹配具有复杂内容的图像和句子，并在两个公开基准数据集上取得了最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供