3 个月前

藏与说:学习桥接图像流以实现视觉叙事

藏与说:学习桥接图像流以实现视觉叙事

摘要

视觉叙事是一项基于图像序列生成简短故事的任务。与现有的图像描述(visual captioning)不同,视觉叙事不仅要求对图像内容进行事实性描述,还强调人类般的叙述风格与语义表达。然而,现有的VIST数据集每条故事仅包含少量且固定的图像数量,这导致视觉叙事的主要挑战在于如何通过富有想象力的叙述来填补图像之间的视觉空白。为此,本文提出一种显式学习机制,用于构想能够弥合视觉间隙的故事情节。在训练过程中,从输入图像序列中随机移除一张或多张图像,训练网络在缺失图像的情况下仍能生成完整且合理的故事情节。此外,本文还提出一种“藏匿与讲述”(hide-and-tell)模型,该模型旨在学习图像序列之间的非局部关系,并对传统的基于RNN的模型进行优化与提升。实验结果表明,所提出的“藏匿与讲述”机制以及网络架构在视觉叙事任务中具有显著有效性,且在自动评估指标上优于以往的最先进方法。最后,我们通过定性分析展示了模型在视觉间隙上进行故事情节插值的 learned 能力。

基准测试

基准方法指标
visual-storytelling-on-vistINet
BLEU-1: 64.4
BLEU-2: 0.401
BLEU-3: 23.9
BLEU-4: 14.7
CIDEr: 10
METEOR: 35.6
ROUGE-L: 29.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
藏与说:学习桥接图像流以实现视觉叙事 | 论文 | HyperAI超神经