3 个月前

Imagen Video:基于扩散模型的高清视频生成

Imagen Video:基于扩散模型的高清视频生成

摘要

我们提出 Imagen Video,这是一个基于级联视频扩散模型的文本条件视频生成系统。给定一段文本提示,Imagen Video 通过一个基础视频生成模型,以及一系列交替进行的空间与时间视频超分辨率模型,生成高分辨率视频。我们详细阐述了该系统作为高分辨率文本到视频模型的扩展方法,包括在特定分辨率下选择全卷积结构的时间与空间超分辨率模型,以及采用扩散模型的 v-参数化形式等设计决策。此外,我们将先前基于扩散模型的图像生成研究中的成果与发现成功迁移至视频生成场景。最后,我们采用渐进式蒸馏(progressive distillation)技术结合无分类器引导(classifier-free guidance),实现了快速且高质量的采样。实验表明,Imagen Video 不仅能够生成高保真度的视频,还具备高度的可控性与世界知识理解能力,能够生成风格多样的视频内容与文本动画,并支持多种艺术风格表达,同时具备对三维物体的感知理解能力。更多示例请见:https://imagen.research.google/video/。

基准测试

基准方法指标
video-generation-on-laion-400mImagen original (constant=6)
CLIP: 25.19
CLIP R-Precision: 92.12
video-generation-on-laion-400mImagen distilled (oscillate (15,1))
CLIP: 25.12
CLIP R-Precision: 88.78
video-generation-on-laion-400mImagen distilled (constant=6)
CLIP: 25.29
CLIP R-Precision: 90.88
video-generation-on-laion-400mImagen fully distilled (constant=6)
CLIP R-Precision: 89.68
video-generation-on-laion-400mImagen fully distilled (oscillate (15,1))
CLIP R-Precision: 90.97
video-generation-on-laion-400mImagen original (oscillate(15,1))
CLIP: 25.03
CLIP R-Precision: 89.91

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Imagen Video:基于扩散模型的高清视频生成 | 论文 | HyperAI超神经