
摘要
视觉叙事旨在从一组图像序列中自动生成连贯的叙事段落。现有的方法通常独立地为每张图像生成文本描述,再将其粗略拼接成故事,导致生成内容在语义上缺乏连贯性。本文提出一种新的视觉叙事方法,通过引入主题描述任务,以识别图像序列的全局语义上下文,进而基于该主题描述引导故事的生成。为有效融合主题描述生成与故事生成两项任务,我们设计了一种多智能体通信框架,将主题描述生成器与故事生成器视为两个智能体,并通过迭代更新机制实现两者的协同学习。我们在VIST数据集上验证了所提方法的有效性,定量实验、消融研究及人工评估结果均表明,相较于当前最优方法,本方法在生成高质量、语义连贯的故事方面具有显著优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| visual-storytelling-on-vist | TAVST (RL) | BLEU-1: 64.2 BLEU-2: 39.6 BLEU-3: 23.7 BLEU-4: 14.6 CIDEr: 9.2 METEOR: 35.7 ROUGE-L: 31 |