4 个月前

深度视觉-语义对齐生成图像描述

深度视觉-语义对齐生成图像描述

摘要

我们提出了一种生成图像及其区域自然语言描述的模型。该方法利用包含图像及其句子描述的数据集来学习语言和视觉数据之间的跨模态对应关系。我们的对齐模型基于一种新颖的组合,包括在图像区域上应用的卷积神经网络(Convolutional Neural Networks)、在句子上应用的双向循环神经网络(bidirectional Recurrent Neural Networks)以及一个通过多模态嵌入将两种模态对齐的结构化目标函数。随后,我们描述了一种多模态循环神经网络架构,该架构利用推断出的对齐关系来学习生成新的图像区域描述。我们展示了我们的对齐模型在Flickr8K、Flickr30K和MSCOCO数据集上的检索实验中取得了最先进的结果。此外,我们还证明了生成的描述在完整图像和一个新的区域级注释数据集上显著优于检索基线方法。

基准测试

基准方法指标
cross-modal-retrieval-on-coco-2014Dual-Path (ResNet)
Image-to-text R@1: 41.2
Image-to-text R@10: 81.1
Image-to-text R@5: 70.5
Text-to-image R@1: 25.3
Text-to-image R@10: 66.4
Text-to-image R@5: 53.4
image-captioning-on-flickr30k-captions-testBRNN
BLEU-4: 15.7
CIDEr: 24.7
METEOR: 15.3
SPICE: -
image-retrieval-on-flickr30k-1k-testDVSA (R-CNN, AlexNet)
R@1: 15.2
R@10: 50.5
image-to-text-retrieval-on-cocoDVSA
Recall@10: 74.8
question-generation-on-coco-visual-questioncoco-Caption [[Karpathy and Li2014]]
BLEU-1: 62.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
深度视觉-语义对齐生成图像描述 | 论文 | HyperAI超神经