4 个月前

提升基于流导向的视频修复与参考生成

提升基于流导向的视频修复与参考生成

摘要

视频修复(VI)是一项具有挑战性的任务,需要在帧间有效传播可见内容的同时生成原始视频中不存在的新内容。在这项研究中,我们提出了一种稳健且实用的VI框架,该框架结合了大型生成模型用于参考生成以及先进的像素传播算法。借助强大的生成模型,我们的方法不仅显著提升了物体移除的帧级质量,还能根据用户提供的文本提示在缺失区域合成新内容。对于像素传播,我们引入了一种单次像素拉取方法,该方法能有效避免重复采样带来的误差累积,同时保持亚像素精度。为了在现实场景中评估各种VI方法,我们还提出了一个高质量的VI基准测试集HQVI,其中包含使用Alpha遮罩合成技术精心制作的视频。在公共基准测试集和HQVI数据集上,我们的方法展示了显著更高的视觉质量和指标得分,优于现有解决方案。此外,该方法能够轻松处理超过2K分辨率的高分辨率视频,突显了其在实际应用中的优越性。

代码仓库

suhwan-cho/RGVI
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-inpainting-on-hqvi-240pRGVI w/o Ref.
LPIPS: 0.0390
PSNR: 31.60
SSIM: 0.9559
VFID: 0.1868
video-inpainting-on-hqvi-240pRGVI
LPIPS: 0.0335
PSNR: 30.66
SSIM: 0.9527
VFID: 0.1825
video-inpainting-on-hqvi-2kRGVI
LPIPS: 0.0357
PSNR: 30.10
SSIM: 0.9489
VFID: 0.0058
video-inpainting-on-hqvi-2kRGVI w/o Ref.
LPIPS: 0.0403
PSNR: 29.81
SSIM: 0.9501
VFID: 0.0101
video-inpainting-on-hqvi-480pRGVI w/o Ref.
LPIPS: 0.0403
PSNR: 31.19
SSIM: 0.9534
VFID: 0.0404
video-inpainting-on-hqvi-480pRGVI
LPIPS: 0.0342
PSNR: 30.90
SSIM: 0.9513
VFID: 0.0311

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
提升基于流导向的视频修复与参考生成 | 论文 | HyperAI超神经