
摘要
我们提出了一种基于去噪扩散概率模型的视频建模框架,能够生成在多种真实环境下的长时长视频补全结果。我们引入了一种生成模型,该模型在推理阶段可基于任意已知的视频帧子集,采样任意其他子集的视频帧,并为此目的设计了相应的网络架构。该方法使我们能够高效地比较与优化长视频中帧采样的顺序策略,并实现对先前采样帧的有选择性、稀疏且具有长距离依赖关系的条件建模。我们在多个数据集上展示了该方法相较于以往工作的显著性能提升,并成功生成了时长超过25分钟的时序连贯视频。此外,我们还发布了一个新的视频建模数据集,以及基于CARLA自动驾驶仿真器生成视频所构建的语义有意义的评估指标。
代码仓库
plai-group/flexible-video-diffusion-modeling
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| rain-removal-on-nighrain | FDM | PSNR: 23.49 |