
摘要
视频修复(VI)是一项具有挑战性的任务,需要在帧间有效传播可见内容的同时生成原始视频中不存在的新内容。在这项研究中,我们提出了一种稳健且实用的VI框架,该框架结合了大型生成模型用于参考生成以及先进的像素传播算法。借助强大的生成模型,我们的方法不仅显著提升了物体移除的帧级质量,还能根据用户提供的文本提示在缺失区域合成新内容。对于像素传播,我们引入了一种单次像素拉取方法,该方法能有效避免重复采样带来的误差累积,同时保持亚像素精度。为了在现实场景中评估各种VI方法,我们还提出了一个高质量的VI基准测试集HQVI,其中包含使用Alpha遮罩合成技术精心制作的视频。在公共基准测试集和HQVI数据集上,我们的方法展示了显著更高的视觉质量和指标得分,优于现有解决方案。此外,该方法能够轻松处理超过2K分辨率的高分辨率视频,突显了其在实际应用中的优越性。
代码仓库
suhwan-cho/RGVI
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-inpainting-on-hqvi-240p | RGVI w/o Ref. | LPIPS: 0.0390 PSNR: 31.60 SSIM: 0.9559 VFID: 0.1868 |
| video-inpainting-on-hqvi-240p | RGVI | LPIPS: 0.0335 PSNR: 30.66 SSIM: 0.9527 VFID: 0.1825 |
| video-inpainting-on-hqvi-2k | RGVI | LPIPS: 0.0357 PSNR: 30.10 SSIM: 0.9489 VFID: 0.0058 |
| video-inpainting-on-hqvi-2k | RGVI w/o Ref. | LPIPS: 0.0403 PSNR: 29.81 SSIM: 0.9501 VFID: 0.0101 |
| video-inpainting-on-hqvi-480p | RGVI w/o Ref. | LPIPS: 0.0403 PSNR: 31.19 SSIM: 0.9534 VFID: 0.0404 |
| video-inpainting-on-hqvi-480p | RGVI | LPIPS: 0.0342 PSNR: 30.90 SSIM: 0.9513 VFID: 0.0311 |