3 个月前

用于高保真长视频生成的潜在视频扩散模型

用于高保真长视频生成的潜在视频扩散模型

摘要

近年来,生成式人工智能内容受到广泛关注,但实现逼真视频合成仍面临重大挑战。尽管已有大量研究尝试利用生成对抗网络(GAN)和自回归模型在该领域取得突破,但生成视频的视觉质量与长度仍远未达到理想水平。近年来,扩散模型(Diffusion Models)展现出卓越性能,但其对计算资源的需求较高。为此,本文提出一种轻量级视频扩散模型,通过引入低维三维潜在空间,显著提升了在有限计算资源下的生成效果,优于以往基于像素空间的视频扩散模型。此外,我们设计了分层扩散机制,使模型能够生成超过一千帧的长视频。为进一步缓解长视频生成过程中性能退化的问题,本文提出条件潜在扰动(conditional latent perturbation)与无条件引导(unconditional guidance)策略,有效抑制了视频长度扩展过程中累积的误差。在多个小规模数据集(涵盖不同类别)上的大量实验表明,所提框架生成的视频在真实感与长度方面均显著优于现有先进基线方法。此外,我们还将该方法扩展至大规模文本到视频生成任务,进一步验证了其优越性。相关代码与模型将公开发布,以促进学术交流与技术发展。

代码仓库

yingqinghe/lvdm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-generation-on-sky-time-lapseTATS (128x128)
FVD 16: 132.6
KVD16: 5.7
video-generation-on-sky-time-lapseLong-video GAN (128x128)
FVD 16: 107.5
video-generation-on-sky-time-lapseMoCoGAN-HD (128x128)
FVD 16: 183.6
KVD16: 13.9
video-generation-on-sky-time-lapseLong-video GAN (256x256)
FVD 16: 116.5
video-generation-on-sky-time-lapseDIGAN (128x128)
FVD 16: 114.6
KVD16: 6.8
video-generation-on-sky-time-lapseLVDM (256x256)
FVD 16: 95.2
KVD16: 3.9
video-generation-on-taichiDIGAN (256x256)
FVD16: 156.7
video-generation-on-taichiLVDM (256x256)
FVD16: 99
KVD16: 15.3
video-generation-on-taichiTATS (128x128)
FVD16: 94.6
KVD16: 9.8
video-generation-on-taichiMoCoGAN-HD (128x128)
FVD16: 144.7
KVD16: 25.4
video-generation-on-taichiDIGAN (128x128)
FVD16: 128.1
KVD16: 20.6
video-generation-on-ucf-101LVDM (256x256, unconditional)
FVD16: 552
KVD16: 42
video-generation-on-ucf-101VDM
FVD16: 1396
KVD16: 116
video-generation-on-ucf-101MCVD
FVD16: 2460
KVD16: 148
video-generation-on-ucf-101TGAN-v2 (128x128)
FVD16: 1209
video-generation-on-ucf-101LVDM (256x256, unconditional)
FVD16: 372
KVD16: 27

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于高保真长视频生成的潜在视频扩散模型 | 论文 | HyperAI超神经