3 个月前

博学的讲述者:一种基于常识驱动的视觉叙事生成模型

博学的讲述者:一种基于常识驱动的视觉叙事生成模型

摘要

视觉叙事(Visual Storytelling, VST)任务旨在以图像序列作为输入,生成一段合理且连贯的段落级故事。与仅对图像内容进行直接、字面描述的图像字幕(caption)不同,VST任务中的故事往往包含大量图像中并未直接呈现的想象性概念。这要求AI代理能够基于隐含的常识知识进行推理与联想,从而生成能够合理描述图像序列的叙事内容。为此,本文提出一种基于常识驱动的生成模型,旨在从外部知识库中引入关键的常识信息,以增强视觉叙事的合理性与连贯性。我们的方法首先从知识库中提取一组候选知识图谱,随后采用一种精心设计的视觉感知方向编码机制,有效融合最具信息量的常识知识。此外,我们在解码过程中力求最大化输出文本内部的语义相似性,以进一步提升生成文本的连贯性。实验结果表明,该方法在性能上显著超越现有最先进系统,CIDEr得分实现了29%的相对提升。在引入额外的常识信息与语义相关性目标函数后,生成的故事在多样性与连贯性方面均得到进一步增强。

基准测试

基准方法指标
visual-storytelling-on-vistK-Storyteller
BLEU-4: 12.8
CIDEr: 12.1
METEOR: 35.2
ROUGE-L: 29.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
博学的讲述者:一种基于常识驱动的视觉叙事生成模型 | 论文 | HyperAI超神经