Songwei GeSeungjun NahGuilin LiuTyler PoonAndrew TaoBryan CatanzaroDavid JacobsJia-Bin HuangMing-Yu LiuYogesh Balaji

摘要
尽管扩散模型在生成高质量图像方面取得了巨大进展,但合成既具备逼真视觉效果又保持时间连贯性的动画序列仍处于起步阶段。虽然目前已有适用于图像生成的千亿级现成数据集,但获取同等规模的视频数据仍面临巨大挑战。此外,训练视频扩散模型在计算成本上远高于图像扩散模型。在本研究中,我们探索了一种实用的解决方案:利用视频数据对预训练的图像扩散模型进行微调,以应对视频生成任务。我们发现,简单地将图像噪声先验扩展为视频噪声先验,会导致性能欠佳。为此,我们设计了一种精心构造的视频噪声先验,显著提升了模型表现。大量实验验证表明,我们提出的模型—— Preserve Your Own Correlation(PYoCo),在UCF-101和MSR-VTT基准上实现了当前最优的零样本文本到视频生成效果。此外,在小规模的UCF-101基准上,PYoCo仅使用比先前方法小10倍的模型参数,且所需计算资源大幅减少,仍达到了最先进的视频生成质量。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-video-generation-on-ucf-101 | PYoCo (Zero-shot, 64x64) | FVD16: 355.19 |
| video-generation-on-ucf-101 | PYoCo (Zero-shot, 64x64, text-conditional) | FVD16: 355.19 Inception Score: 47.76 |
| video-generation-on-ucf-101 | PYoCo (Zero-shot, 64x64, unconditional) | FVD16: 310 Inception Score: 60.01 |