4 个月前

从标题到视觉概念及回溯

从标题到视觉概念及回溯

摘要

本文提出了一种自动生成图像描述的新方法:视觉检测器、语言模型以及直接从图像字幕数据集中学习的多模态相似性模型。我们使用多实例学习来训练针对在字幕中频繁出现的单词(包括名词、动词和形容词等多种词性)的视觉检测器。这些单词检测器的输出作为最大熵语言模型的条件输入。语言模型从超过40万条图像描述中学习,以捕捉词汇使用的统计特征。通过使用句子级特征和深度多模态相似性模型对候选字幕进行重新排序,我们捕获了全局语义信息。我们的系统在官方的Microsoft COCO基准测试中处于领先水平,产生了29.1%的BLEU-4分数。当人类评审员将系统生成的字幕与我们在保留测试集上由其他人编写的字幕进行比较时,系统生成的字幕有34%的时间具有相同或更好的质量。

代码仓库

基准测试

基准方法指标
image-captioning-on-coco-captionsFrom Captions to Visual Concepts and Back
BLEU-4: 25.7
METEOR: 23.6
image-captioning-on-coco-captions-testFrom Captions to Visual Concepts and Back
BLEU-4: 56.7
CIDEr: 92.5
METEOR: 33.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从标题到视觉概念及回溯 | 论文 | HyperAI超神经