
摘要
条件扩散模型在文本到图像合成方面展示了最先进的能力。近期,大多数研究集中在生成独立的图像;然而,在实际应用中,通常需要生成一系列连贯的图像来讲述故事。在这项工作中,我们主要关注故事可视化和延续任务,并提出了一种自回归条件下的潜在扩散模型——AR-LDM,该模型基于历史描述和已生成的图像进行条件训练。此外,AR-LDM 通过适应可以推广到新角色。据我们所知,这是首次成功利用扩散模型实现连贯视觉故事合成的工作。定量结果显示,AR-LDM 在 PororoSV、FlintstonesSV 以及新引入的具有挑战性的 VIST 数据集(包含自然图像)上取得了最佳的 FID 分数。大规模的人类评估表明,AR-LDM 在质量、相关性和一致性方面表现出色。
代码仓库
xichenpan/ARLDM
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| story-continuation-on-flintstonessv | AR-LDM | FID: 19.28 |
| story-continuation-on-pororosv | AR-LDM | FID: 17.4 |
| story-continuation-on-vist | AR-LDM (DII captions) | FID: 17.03 |
| story-continuation-on-vist | AR-LDM (SIS captions) | FID: 16.95 |
| story-visualization-on-pororo | AR-LDM | FID: 16.59 |