
摘要
我们提出了一种基于过去连续视频帧序列预测未来视频帧的方法。该方法并非直接合成图像,而是通过分离背景场景和移动物体来理解复杂的场景动态。未来场景组件的外观通过非刚性变形背景和移动物体的仿射变换进行预测。预期的外观被组合以生成合理的未来视频。通过这一过程,我们的方法在减少撕裂或失真伪影方面表现出明显优势。在Cityscapes和KITTI数据集上的实验结果表明,我们的模型在视觉质量和准确性方面优于现有最先进方法。
代码仓库
YueWuHKUST/FutureVideoSynthesis
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-prediction-on-cityscapes-1 | FVS | LPIPS: 0.0850 MS-SSIM: 0.8910 |
| video-prediction-on-kitti | FVS | LPIPS: 0.1848 MS-SSIM: 0.7928 |