4 个月前

实例感知的图像与句子匹配:选择性多模态LSTM方法

实例感知的图像与句子匹配:选择性多模态LSTM方法

摘要

有效的图像与句子匹配依赖于如何准确测量它们的全局视觉-语义相似度。基于观察到这种全局相似度源自图像(对象)和句子(单词)实例之间多个局部相似度的复杂聚合,我们提出了一种选择性的多模态长短期记忆网络(sm-LSTM),用于实例感知的图像与句子匹配。sm-LSTM 在每个时间步包含一个多模态上下文调节注意力机制,可以有选择地关注图像和句子的一对实例,通过预测图像和句子的实例感知显著图来实现这一目标。对于选定的一对实例,其表示是根据预测的显著图获得的,然后进行比较以测量它们的局部相似度。通过在几个时间步内类似地测量多个局部相似度,sm-LSTM 依次将这些局部相似度与隐藏状态聚合,最终得到所需的全局相似度评分。广泛的实验表明,我们的模型能够很好地匹配具有复杂内容的图像和句子,并在两个公开基准数据集上取得了最先进的结果。

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-testSM-LSTM (VGG)
R@1: 30.2
R@10: 72.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
实例感知的图像与句子匹配:选择性多模态LSTM方法 | 论文 | HyperAI超神经