3 个月前

Snap Video:用于文本到视频生成的规模化时空Transformer

Snap Video:用于文本到视频生成的规模化时空Transformer

摘要

当前用于图像生成的模型展现出卓越的质量与泛化能力。受其优势的启发,研究界正尝试将这些模型迁移用于视频生成。然而,由于视频内容具有高度冗余性,我们指出,若简单地将图像生成领域的进展直接应用于视频生成,将导致运动保真度下降、视觉质量降低,并严重损害模型的可扩展性。为此,本文提出了一种以视频为核心的模型——Snap Video,系统性地解决了上述挑战。首先,我们扩展了EDM(Noise Conditioning Diffusion Model)框架,使其能够有效处理空间与时间维度上的冗余像素,从而自然支持视频生成任务。其次,我们发现,作为图像生成核心组件的U-Net架构在生成视频时扩展性较差,需要巨大的计算开销。因此,我们提出了一种基于Transformer的新架构,其训练速度比U-Net快3.31倍(推理速度提升约4.5倍)。这一改进使我们首次能够高效训练参数量达数十亿的文本到视频生成模型,在多个基准测试中达到当前最优性能,并生成具有显著更高视觉质量、更强时间一致性以及更复杂运动表现的视频。用户评估实验表明,与最新方法相比,我们的模型在主观评价中获得了压倒性优势。更多信息请访问项目主页:https://snap-research.github.io/snapvideo/。

基准测试

基准方法指标
text-to-video-generation-on-msr-vttSnap Video (512x288)
CLIP-FID: 9.35
CLIPSIM: 0.2793
FVD: 104.0
text-to-video-generation-on-msr-vttSnap Video (288×288)
CLIP-FID: 8.48
CLIPSIM: 0.2793
FVD: 110.4
text-to-video-generation-on-ucf-101Snap Video (Zero-shot, 288×288)
FVD16: 260.1
text-to-video-generation-on-ucf-101Snap Video (Zero-shot, 512x288)
FVD16: 200.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Snap Video:用于文本到视频生成的规模化时空Transformer | 论文 | HyperAI超神经