3 个月前

想象、推理与写作:基于图知识与关系推理的视觉叙事

想象、推理与写作:基于图知识与关系推理的视觉叙事

摘要

视觉叙事是一项基于图像序列生成短篇故事的任务。与视觉字幕(visual captions)不同,视觉叙事不仅包含图像中的事实性描述,还融入了图像中并未直接呈现的想象性内容。本文提出一种新颖的“想象-推理-生成”(Imagine-Reason-Write, IRW)框架,该框架受人类创作故事逻辑的启发。首先,引入一个“想象模块”,显式地学习具有想象力的故事情节,从而提升生成故事的连贯性与合理性。其次,设计一个“推理模块”,通过关系推理方法,充分挖掘外部知识(如常识知识库)以及任务特定知识(如场景图与事件图),以增强对图像中对象间语义关系的理解。由此,能够有效捕捉图像中最具信息量的常识性与视觉关联,显著提升生成故事的多样性与信息丰富度。最后,将想象性概念与关系知识融合,基于原始图像语义生成具有人类风格的叙事内容。在标准基准数据集(VIST)上的大量实验表明,所提出的IRW框架在多项评估指标上均显著优于当前最先进的方法。

基准测试

基准方法指标
visual-storytelling-on-vistIRW
BLEU-1: 66.7
BLEU-2: 41.6
BLEU-3: 25.0
BLEU-4: 15.4
CIDEr: 11.0
METEOR: 35.6
ROUGE-L: 29.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
想象、推理与写作:基于图知识与关系推理的视觉叙事 | 论文 | HyperAI超神经