3 个月前

保留自身相关性:一种用于视频扩散模型的噪声先验

保留自身相关性:一种用于视频扩散模型的噪声先验

摘要

尽管扩散模型在生成高质量图像方面取得了巨大进展,但合成既具备逼真视觉效果又保持时间连贯性的动画序列仍处于起步阶段。虽然目前已有适用于图像生成的千亿级现成数据集,但获取同等规模的视频数据仍面临巨大挑战。此外,训练视频扩散模型在计算成本上远高于图像扩散模型。在本研究中,我们探索了一种实用的解决方案:利用视频数据对预训练的图像扩散模型进行微调,以应对视频生成任务。我们发现,简单地将图像噪声先验扩展为视频噪声先验,会导致性能欠佳。为此,我们设计了一种精心构造的视频噪声先验,显著提升了模型表现。大量实验验证表明,我们提出的模型—— Preserve Your Own Correlation(PYoCo),在UCF-101和MSR-VTT基准上实现了当前最优的零样本文本到视频生成效果。此外,在小规模的UCF-101基准上,PYoCo仅使用比先前方法小10倍的模型参数,且所需计算资源大幅减少,仍达到了最先进的视频生成质量。

基准测试

基准方法指标
text-to-video-generation-on-ucf-101PYoCo (Zero-shot, 64x64)
FVD16: 355.19
video-generation-on-ucf-101PYoCo (Zero-shot, 64x64, text-conditional)
FVD16: 355.19
Inception Score: 47.76
video-generation-on-ucf-101PYoCo (Zero-shot, 64x64, unconditional)
FVD16: 310
Inception Score: 60.01

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
保留自身相关性:一种用于视频扩散模型的噪声先验 | 论文 | HyperAI超神经