Uriel SingerAdam PolyakThomas HayesXi YinJie AnSongyang ZhangQiyuan HuHarry YangOron AshualOran GafniDevi ParikhSonal GuptaYaniv Taigman

摘要
我们提出 Make-A-Video——一种将文本到图像(Text-to-Image, T2I)生成领域近期取得的显著进展直接迁移至文本到视频(Text-to-Video, T2V)生成的新方法。其核心思想简单而有效:通过成对的文本-图像数据学习世界外观及其描述方式,再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势:(1)显著加速 T2V 模型的训练过程(无需从零学习视觉与多模态表示);(2)无需依赖成对的文本-视频数据;(3)生成的视频继承了当前图像生成模型所具备的广阔多样性,包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法,基于现有的 T2I 模型,引入新颖且有效的时空模块。首先,我们将完整的时序 U-Net 与注意力张量进行时空分解,并在空间与时间维度上分别进行近似处理;其次,我们构建了一个时空流水线,结合视频解码器、插值模型以及两个超分辨率模型,实现高分辨率、高帧率视频的生成,该架构不仅适用于 T2V 任务,还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上,Make-A-Video 均通过定性与定量评估,达到了文本到视频生成领域的最新技术水平,树立了新的标杆。
代码仓库
xuduo35/MakeLongVideo
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-msr-vtt | Make-A-Video | CLIP-FID: 13.17 CLIPSIM: 0.3049 FID: 13.17 |
| text-to-video-generation-on-msr-vtt | CogVideo (English) | CLIP-FID: 23.59 CLIPSIM: 0.2631 FID: 23.59 |
| video-generation-on-ucf-101 | Make-A-Video (Zero-shot, 256x256, class-conditional) | FVD16: 367.23 Inception Score: 33 |
| video-generation-on-ucf-101 | Make-A-Video (Finetuning, 256x256, class-conditional) | FVD16: 81.25 Inception Score: 82.55 |