6 个月前

摘要

近年来，生成式人工智能内容受到广泛关注，但实现逼真视频合成仍面临重大挑战。尽管已有大量研究尝试利用生成对抗网络（GAN）和自回归模型在该领域取得突破，但生成视频的视觉质量与长度仍远未达到理想水平。近年来，扩散模型（Diffusion Models）展现出卓越性能，但其对计算资源的需求较高。为此，本文提出一种轻量级视频扩散模型，通过引入低维三维潜在空间，显著提升了在有限计算资源下的生成效果，优于以往基于像素空间的视频扩散模型。此外，我们设计了分层扩散机制，使模型能够生成超过一千帧的长视频。为进一步缓解长视频生成过程中性能退化的问题，本文提出条件潜在扰动（conditional latent perturbation）与无条件引导（unconditional guidance）策略，有效抑制了视频长度扩展过程中累积的误差。在多个小规模数据集（涵盖不同类别）上的大量实验表明，所提框架生成的视频在真实感与长度方面均显著优于现有先进基线方法。此外，我们还将该方法扩展至大规模文本到视频生成任务，进一步验证了其优越性。相关代码与模型将公开发布，以促进学术交流与技术发展。

源 PDF