
摘要
视觉叙事(Visual Story-Telling)是指从一组图像中生成多句连贯故事的过程。在这一过程中,如何恰当地融入图像所包含的视觉多样性与上下文信息,是当前面临的核心挑战之一。因此,现有基于图像集生成的故事往往缺乏连贯性、相关性以及语义上的内在联系。本文提出了一种基于视觉Transformer(Vision Transformer, ViT)的新模型,用于将一组图像描述为一个连贯的叙事。该方法首先利用视觉Transformer提取输入图像的显著特征:将输入图像划分为16×16的图像块(patches),并将这些块展平后进行线性投影,形成序列化表示。这一从单张图像到多图像块的转换过程,有效捕捉了输入视觉模式的视觉多样性。随后,这些图像块特征作为输入送入双向长短期记忆网络(Bidirectional-LSTM),作为序列编码器的一部分,以建模所有图像块的前后上下文信息。接着,引入注意力机制,增强输入至语言模型的数据判别能力,其中语言模型采用Mogrifier-LSTM结构。在视觉叙事数据集(VIST)上的实验结果表明,所提出的模型在生成质量上优于当前最先进的方法,展现出更强的叙事连贯性与语义表达能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-storytelling-on-vist | ViT-model | BLEU-1: 63 BLEU-2: 37.5 BLEU-3: 21.5 BLEU-4: 12.3 CIDEr: 4.4 METEOR: 35.4 ROUGE-L: 31 |