4 个月前

基于图像的多样性和连贯性段落生成

基于图像的多样性和连贯性段落生成

摘要

从图像生成段落是近年来受到广泛关注的一项重要任务,对于视频摘要、编辑以及支持残疾人具有重要意义。传统的图像描述方法在这方面存在不足,因为它们并非设计用于生成长而详细的信息描述。此外,简单地将多个短句(可能来自经典图像描述系统)拼接起来的方法也无法体现段落的复杂性:连贯的句子、全局一致的结构和多样性。为了解决这些挑战,我们提出通过“连贯向量”、“全局主题向量”以及变分自编码器(Variational Auto-Encoder, VAE)公式来建模段落与图像之间固有的模糊关联,从而增强段落生成技术。我们在两个数据集上展示了所开发方法的有效性,结果表明该方法在这两个数据集上的表现均优于现有的最先进技术。

基准测试

基准方法指标
image-paragraph-captioning-on-image-paragraphDiverse and Coherent Paragraph Generation from Images
BLEU-4: 9.43
CIDEr: 20.93
METEOR: 18.62

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于图像的多样性和连贯性段落生成 | 论文 | HyperAI超神经