6 个月前

Xu sun Zhiyi Yin Lei LI Xiaodong He Pengcheng Yang Fuli Luo Peng Chen

摘要

视觉叙事（Visual Storytelling, VST）任务旨在以图像序列作为输入，生成一段合理且连贯的段落级故事。与仅对图像内容进行直接、字面描述的图像字幕（caption）不同，VST任务中的故事往往包含大量图像中并未直接呈现的想象性概念。这要求AI代理能够基于隐含的常识知识进行推理与联想，从而生成能够合理描述图像序列的叙事内容。为此，本文提出一种基于常识驱动的生成模型，旨在从外部知识库中引入关键的常识信息，以增强视觉叙事的合理性与连贯性。我们的方法首先从知识库中提取一组候选知识图谱，随后采用一种精心设计的视觉感知方向编码机制，有效融合最具信息量的常识知识。此外，我们在解码过程中力求最大化输出文本内部的语义相似性，以进一步提升生成文本的连贯性。实验结果表明，该方法在性能上显著超越现有最先进系统，CIDEr得分实现了29%的相对提升。在引入额外的常识信息与语义相关性目标函数后，生成的故事在多样性与连贯性方面均得到进一步增强。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Xu sun Zhiyi Yin Lei LI Xiaodong He Pengcheng Yang Fuli Luo Peng Chen

摘要

视觉叙事（Visual Storytelling, VST）任务旨在以图像序列作为输入，生成一段合理且连贯的段落级故事。与仅对图像内容进行直接、字面描述的图像字幕（caption）不同，VST任务中的故事往往包含大量图像中并未直接呈现的想象性概念。这要求AI代理能够基于隐含的常识知识进行推理与联想，从而生成能够合理描述图像序列的叙事内容。为此，本文提出一种基于常识驱动的生成模型，旨在从外部知识库中引入关键的常识信息，以增强视觉叙事的合理性与连贯性。我们的方法首先从知识库中提取一组候选知识图谱，随后采用一种精心设计的视觉感知方向编码机制，有效融合最具信息量的常识知识。此外，我们在解码过程中力求最大化输出文本内部的语义相似性，以进一步提升生成文本的连贯性。实验结果表明，该方法在性能上显著超越现有最先进系统，CIDEr得分实现了29%的相对提升。在引入额外的常识信息与语义相关性目标函数后，生成的故事在多样性与连贯性方面均得到进一步增强。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

博学的讲述者：一种基于常识驱动的视觉叙事生成模型 | 论文 | HyperAI超神经