3 个月前

Show-1:融合像素空间与潜在扩散模型的文本到视频生成

Show-1:融合像素空间与潜在扩散模型的文本到视频生成

摘要

在大规模预训练文本到视频扩散模型(Text-to-Video Diffusion Models, VDMs)领域,已取得显著进展。然而,以往的方法要么仅依赖基于像素的VDM,导致计算成本高昂;要么依赖基于潜在空间的VDM,往往难以实现精确的文本-视频对齐。本文首次提出一种混合模型——Show-1,该模型创新性地融合了基于像素和基于潜在空间的VDM,用于文本到视频生成任务。具体而言,我们的模型首先利用基于像素的VDM生成具有强文本-视频关联性的低分辨率视频。随后,提出一种新颖的专家转换(expert translation)方法,通过潜在空间VDM对低分辨率视频进行进一步上采样至高分辨率,同时有效消除低分辨率视频中可能存在的伪影和失真。与仅使用潜在空间VDM的方法相比,Show-1能够生成在文本-视频对齐精度和视觉质量方面均更优的视频;与基于像素的VDM相比,Show-1在推理阶段显著提升效率,GPU显存占用仅为15GB,远低于后者72GB。此外,通过简单的时序注意力层微调,Show-1模型可轻松拓展至动作定制(motion customization)与视频风格化(video stylization)等应用。在标准视频生成基准测试中,Show-1取得了当前最优的性能表现。相关代码与模型权重已公开发布于:https://github.com/showlab/Show-1。

代码仓库

showlab/show-1
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-video-generation-on-evalcrafter-textShow-1
Motion Quality: 52.19
Temporal Consistency: 60.83
Text-to-Video Alignment: 62.07
Total Score: 229
Visual Quality: 53.74
text-to-video-generation-on-msr-vttShow-1
CLIPSIM: 0.3072
FID: 13.08
FVD: 538

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Show-1:融合像素空间与潜在扩散模型的文本到视频生成 | 论文 | HyperAI超神经