3 个月前

对齐你的潜在表示:基于潜在扩散模型的高分辨率视频合成

对齐你的潜在表示:基于潜在扩散模型的高分辨率视频合成

摘要

潜在扩散模型(Latent Diffusion Models, LDMs)通过在低维压缩的潜在空间中训练扩散模型,实现了高质量图像生成,同时避免了过度的计算开销。本文将LDM范式应用于高分辨率视频生成这一计算资源需求极高的任务。我们首先仅基于图像数据对LDM进行预训练;随后,通过向潜在空间扩散模型引入时间维度,并在编码后的图像序列(即视频)上进行微调,将图像生成器转化为视频生成器。类似地,我们对扩散模型的上采样器进行时间对齐,使其转变为具有时间一致性的视频超分辨率模型。本研究聚焦于两个实际应用场景:真实场景下驾驶数据的模拟生成,以及基于文本到视频建模的创意内容创作。特别地,我们在分辨率为512×1024的真实驾驶视频数据上验证了所提出的Video LDM,取得了当前最先进的性能表现。此外,我们的方法能够轻松复用现成的预训练图像LDM,因为在该情况下仅需训练一个时间对齐模块即可。基于此,我们将公开可用的、当前最先进的文本到图像LDM——Stable Diffusion,成功转化为一个高效且富有表现力的文本到视频生成模型,支持最高达1280×2048分辨率的输出。我们进一步证明,通过该方式训练的时间层具有良好的泛化能力,可适用于不同微调后的文本到图像LDM。利用这一特性,我们首次实现了个性化文本到视频生成的结果,为未来内容创作开辟了令人振奋的新方向。项目主页:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

代码仓库

ai-forever/kandinskyvideo
pytorch
GitHub 中提及
gongzix/neuroclips
GitHub 中提及
srpkdyy/VideoLDM
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-video-generation-on-msr-vttVideo LDM
CLIPSIM: 0.2929
text-to-video-generation-on-msr-vttCogVideo (Chinese)
CLIP-FID: 24.78
CLIPSIM: 0.2614
text-to-video-generation-on-ucf-101Video LDM (Zero-shot, 320x512)
FVD16: 550.61
video-generation-on-ucf-101Video LDM (320x512, text-conditional)
FVD16: 550.61
Inception Score: 33.45

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对齐你的潜在表示:基于潜在扩散模型的高分辨率视频合成 | 论文 | HyperAI超神经