4 个月前

卷积自编码句子主题以生成图像段落

卷积自编码句子主题以生成图像段落

摘要

图像段落生成是指生成一个连贯的故事(通常是一段文字),以描述图像中的视觉内容。然而,这一问题并不简单,尤其是在需要考虑多个描述性和多样化的要点时,这种情况在真实图像中经常出现。一个合理的问题是如何从图像中提取出值得提及的这些要点/主题,并且从一个主题到另一个主题整体地、连贯地描述图像。本文提出了一种新的设计——卷积自编码器(Convolutional Auto-Encoding, CAE),该方法完全采用卷积和反卷积自编码框架对图像的区域级特征进行主题建模。此外,我们还提出了一种架构,即CAE结合长短期记忆网络(称为CAE-LSTM),创新性地将学习到的主题整合到段落生成中。技术上,CAE-LSTM利用了具有注意力机制的两级LSTM段落生成框架。段落级别的LSTM捕捉段落中句子之间的依赖关系,而句子级别的LSTM则根据每个学习到的主题生成一句话。我们在斯坦福大学的图像段落数据集上进行了广泛的实验,并报告了与现有最先进方法相比的优越结果。尤为显著的是,CAE-LSTM将CIDEr性能从20.93%提升到了25.15%。

基准测试

基准方法指标
image-paragraph-captioning-on-image-paragraphCAE-LSTM
BLEU-4: 9.67
CIDEr: 25.15
METEOR: 18.82

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
卷积自编码句子主题以生成图像段落 | 论文 | HyperAI超神经