3 个月前

基于场景图的图像流叙事生成

基于场景图的图像流叙事生成

摘要

视觉叙事旨在从图像序列中生成连贯的故事。现有大多数方法倾向于直接使用提取的高层特征来表征图像,这种方式缺乏直观性且难以解释。我们认为,将每张图像转化为基于图的语义表示——即场景图(scene graph),其中显式编码图像中检测到的物体及其相互关系,将有助于更有效地表征和描述图像内容。为此,我们提出了一种新型基于图的视觉叙事架构,通过建模场景图上的两层关系来实现。具体而言,在图像内部层面,我们采用图卷积网络(Graph Convolution Network, GCN)对场景图中物体的局部细粒度区域表示进行增强;为进一步建模图像之间的交互关系,在跨图像层面,引入时间卷积网络(Temporal Convolution Network, TCN)沿时间维度对区域表示进行优化。随后,将具备关系感知能力的表示输入带有注意力机制的门控循环单元(Gated Recurrent Unit, GRU)中,用于生成故事。我们在公开的视觉叙事数据集上进行了实验,自动评估与人工评估结果均表明,所提方法达到了当前最优水平。

基准测试

基准方法指标
visual-storytelling-on-vistSGVST
BLEU-4: 14.7
CIDEr: 9.8
METEOR: 35.8
ROUGE-L: 29.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于场景图的图像流叙事生成 | 论文 | HyperAI超神经