
摘要
生成时间连贯的高保真视频是生成模型研究中的一个重要里程碑。我们通过提出一种用于视频生成的扩散模型,在这一里程碑上取得了进展,该模型展示了非常有前景的初步结果。我们的模型是标准图像扩散架构的自然扩展,它能够从图像和视频数据中进行联合训练,我们发现这可以减少小批量梯度的方差并加速优化过程。为了生成更长和更高分辨率的视频,我们引入了一种新的空间和时间视频扩展条件采样技术,其性能优于之前提出的方法。我们在大规模文本条件下的视频生成任务中展示了首批成果,并在已建立的视频预测和无条件视频生成基准测试中取得了最先进水平的结果。补充材料可访问 https://video-diffusion.github.io/ 获取。
代码仓库
eyeline-research/survey-video-diffusion
pytorch
GitHub 中提及
ndrwmlnk/awesome-video-diffusion-models
GitHub 中提及
lucidrains/video-diffusion-pytorch
pytorch
GitHub 中提及
coderpiaobozhe/classifier-free-diffusion-guidance-Pytorch
pytorch
GitHub 中提及
lucidrains/make-a-video-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-generation-on-ucf-101-16-frames-64x64 | Video Diffusion Model | FID: 295 Inception Score: 57 |