8 个月前

摘要

从图像生成段落是近年来受到广泛关注的一项重要任务，对于视频摘要、编辑以及支持残疾人具有重要意义。传统的图像描述方法在这方面存在不足，因为它们并非设计用于生成长而详细的信息描述。此外，简单地将多个短句（可能来自经典图像描述系统）拼接起来的方法也无法体现段落的复杂性：连贯的句子、全局一致的结构和多样性。为了解决这些挑战，我们提出通过“连贯向量”、“全局主题向量”以及变分自编码器（Variational Auto-Encoder, VAE）公式来建模段落与图像之间固有的模糊关联，从而增强段落生成技术。我们在两个数据集上展示了所开发方法的有效性，结果表明该方法在这两个数据集上的表现均优于现有的最先进技术。

源 PDF