
摘要
本文提出了一种自动生成图像描述的新方法:视觉检测器、语言模型以及直接从图像字幕数据集中学习的多模态相似性模型。我们使用多实例学习来训练针对在字幕中频繁出现的单词(包括名词、动词和形容词等多种词性)的视觉检测器。这些单词检测器的输出作为最大熵语言模型的条件输入。语言模型从超过40万条图像描述中学习,以捕捉词汇使用的统计特征。通过使用句子级特征和深度多模态相似性模型对候选字幕进行重新排序,我们捕获了全局语义信息。我们的系统在官方的Microsoft COCO基准测试中处于领先水平,产生了29.1%的BLEU-4分数。当人类评审员将系统生成的字幕与我们在保留测试集上由其他人编写的字幕进行比较时,系统生成的字幕有34%的时间具有相同或更好的质量。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-captioning-on-coco-captions | From Captions to Visual Concepts and Back | BLEU-4: 25.7 METEOR: 23.6 |
| image-captioning-on-coco-captions-test | From Captions to Visual Concepts and Back | BLEU-4: 56.7 CIDEr: 92.5 METEOR: 33.1 |