
摘要
我们研究了视频到视频合成的问题,其目标是从输入源视频(例如,一系列语义分割掩码)学习映射函数,生成能够精确描绘源视频内容的输出光逼真视频。尽管其图像对应问题——图像到图像合成问题——是一个热门话题,但视频到视频合成问题在文献中较少被探讨。如果不理解时间动态特性,直接将现有的图像合成方法应用于输入视频通常会导致视觉质量较低且时间上不连贯的输出视频。在本文中,我们在生成对抗网络框架下提出了一种新颖的视频到视频合成方法。通过精心设计的生成器和判别器架构,并结合时空对抗目标,我们在多种输入格式(包括分割掩码、草图和姿态)上实现了高分辨率、光逼真且时间连贯的视频结果。多个基准测试实验表明,我们的方法相比强大的基线模型具有显著优势。特别是,我们的模型能够生成长达30秒、分辨率为2K的街道场景视频,这大大推进了当前视频合成领域的技术水平。最后,我们将该方法应用于未来视频预测,超越了几种最先进的竞争系统。
代码仓库
divyanshpuri02/divyansh.github.io
pytorch
GitHub 中提及
freedombenLiu/vid2vid
pytorch
GitHub 中提及
NVIDIA/vid2vid
官方
pytorch
GitHub 中提及
divyanshpuri02/Nvidia
pytorch
GitHub 中提及
Sjunna9819/My-First-Project
pytorch
GitHub 中提及
BUTIYO/vid2vid-test
pytorch
GitHub 中提及
fniroui/depth2room
pytorch
GitHub 中提及
eric-erki/vid2vid
pytorch
GitHub 中提及
yawayo/vid2vid
pytorch
GitHub 中提及
sakshamgupta006/video-to-video-synthesis
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-deraining-on-video-waterdrop-removal | Vid2Vid | PSNR: 28.73 SSIM: 0.9542 |