4 个月前

使用自回归潜在扩散模型合成连贯故事

使用自回归潜在扩散模型合成连贯故事

摘要

条件扩散模型在文本到图像合成方面展示了最先进的能力。近期,大多数研究集中在生成独立的图像;然而,在实际应用中,通常需要生成一系列连贯的图像来讲述故事。在这项工作中,我们主要关注故事可视化和延续任务,并提出了一种自回归条件下的潜在扩散模型——AR-LDM,该模型基于历史描述和已生成的图像进行条件训练。此外,AR-LDM 通过适应可以推广到新角色。据我们所知,这是首次成功利用扩散模型实现连贯视觉故事合成的工作。定量结果显示,AR-LDM 在 PororoSV、FlintstonesSV 以及新引入的具有挑战性的 VIST 数据集(包含自然图像)上取得了最佳的 FID 分数。大规模的人类评估表明,AR-LDM 在质量、相关性和一致性方面表现出色。

代码仓库

xichenpan/ARLDM
官方
pytorch

基准测试

基准方法指标
story-continuation-on-flintstonessvAR-LDM
FID: 19.28
story-continuation-on-pororosvAR-LDM
FID: 17.4
story-continuation-on-vistAR-LDM (DII captions)
FID: 17.03
story-continuation-on-vistAR-LDM (SIS captions)
FID: 16.95
story-visualization-on-pororoAR-LDM
FID: 16.59

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用自回归潜在扩散模型合成连贯故事 | 论文 | HyperAI超神经