3 个月前

Make-A-Video:无需文本-视频数据的文本到视频生成

Make-A-Video:无需文本-视频数据的文本到视频生成

摘要

我们提出 Make-A-Video——一种将文本到图像(Text-to-Image, T2I)生成领域近期取得的显著进展直接迁移至文本到视频(Text-to-Video, T2V)生成的新方法。其核心思想简单而有效:通过成对的文本-图像数据学习世界外观及其描述方式,再通过无监督的视频数据学习世界运动规律。Make-A-Video 具备三大优势:(1)显著加速 T2V 模型的训练过程(无需从零学习视觉与多模态表示);(2)无需依赖成对的文本-视频数据;(3)生成的视频继承了当前图像生成模型所具备的广阔多样性,包括丰富的美学风格与奇幻视觉表现。我们设计了一种简洁而高效的方法,基于现有的 T2I 模型,引入新颖且有效的时空模块。首先,我们将完整的时序 U-Net 与注意力张量进行时空分解,并在空间与时间维度上分别进行近似处理;其次,我们构建了一个时空流水线,结合视频解码器、插值模型以及两个超分辨率模型,实现高分辨率、高帧率视频的生成,该架构不仅适用于 T2V 任务,还可拓展至多种其他应用。在空间与时间分辨率、文本忠实度以及生成质量等多个维度上,Make-A-Video 均通过定性与定量评估,达到了文本到视频生成领域的最新技术水平,树立了新的标杆。

基准测试

基准方法指标
text-to-video-generation-on-msr-vttMake-A-Video
CLIP-FID: 13.17
CLIPSIM: 0.3049
FID: 13.17
text-to-video-generation-on-msr-vttCogVideo (English)
CLIP-FID: 23.59
CLIPSIM: 0.2631
FID: 23.59
video-generation-on-ucf-101Make-A-Video (Zero-shot, 256x256, class-conditional)
FVD16: 367.23
Inception Score: 33
video-generation-on-ucf-101Make-A-Video (Finetuning, 256x256, class-conditional)
FVD16: 81.25
Inception Score: 82.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Make-A-Video:无需文本-视频数据的文本到视频生成 | 论文 | HyperAI超神经