6 个月前

摘要

潜在扩散模型（Latent Diffusion Models, LDMs）通过在低维压缩的潜在空间中训练扩散模型，实现了高质量图像生成，同时避免了过度的计算开销。本文将LDM范式应用于高分辨率视频生成这一计算资源需求极高的任务。我们首先仅基于图像数据对LDM进行预训练；随后，通过向潜在空间扩散模型引入时间维度，并在编码后的图像序列（即视频）上进行微调，将图像生成器转化为视频生成器。类似地，我们对扩散模型的上采样器进行时间对齐，使其转变为具有时间一致性的视频超分辨率模型。本研究聚焦于两个实际应用场景：真实场景下驾驶数据的模拟生成，以及基于文本到视频建模的创意内容创作。特别地，我们在分辨率为512×1024的真实驾驶视频数据上验证了所提出的Video LDM，取得了当前最先进的性能表现。此外，我们的方法能够轻松复用现成的预训练图像LDM，因为在该情况下仅需训练一个时间对齐模块即可。基于此，我们将公开可用的、当前最先进的文本到图像LDM——Stable Diffusion，成功转化为一个高效且富有表现力的文本到视频生成模型，支持最高达1280×2048分辨率的输出。我们进一步证明，通过该方式训练的时间层具有良好的泛化能力，可适用于不同微调后的文本到图像LDM。利用这一特性，我们首次实现了个性化文本到视频生成的结果，为未来内容创作开辟了令人振奋的新方向。项目主页：https://research.nvidia.com/labs/toronto-ai/VideoLDM/

源 PDF