
摘要
如何高效利用时间信息以一致的方式恢复视频是视频修复问题的主要挑战。传统的二维卷积神经网络(2D CNN)在图像修复方面取得了良好的性能,但在应用于视频时往往会导致时间上不一致的结果,即帧之间会出现闪烁现象(参见:https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1)。三维卷积神经网络(3D CNN)虽然可以捕捉时间信息,但计算复杂度高且难以训练。本文提出了一种名为可学习门控时间移位模块(Learnable Gated Temporal Shift Module, LGTSM)的新组件,用于视频修复模型,能够在不增加三维卷积额外参数的情况下有效处理任意视频掩码。LGTSM的设计目的是让二维卷积更高效地利用邻近帧的信息,这对于视频修复至关重要。具体而言,在每一层中,LGTSM学习将某些通道移位到其时间邻域,从而增强二维卷积处理时间信息的能力。同时,在该层应用门控卷积来识别对传统卷积有害的掩码区域。在FaceForensics和自由形式视频修复(Free-form Video Inpainting, FVI)数据集上,我们的模型仅使用约33%的参数和推理时间就达到了最先进的结果。
代码仓库
amjltc295/Free-Form-Video-Inpainting
官方
pytorch
GitHub 中提及
shesay-noway/Free-Form-Video-Inpainting
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-inpainting-on-davis | LGTSM | Ewarp: 0.1640 PSNR: 28.57 SSIM: 0.9409 VFID: 0.170 |
| video-inpainting-on-youtube-vos | LGTSM | Ewarp: 0.1859 PSNR: 29.74 SSIM: 0.9504 VFID: 0.070 |