
摘要
视频插值旨在合成两帧连续图像之间的缺失帧。尽管现有的基于光流的方法已取得令人瞩目的成果,但在处理复杂动态场景的插值任务时仍面临巨大挑战,这些场景通常包含遮挡、模糊或亮度突变等问题。其主要原因在于,上述情况往往违背了光流估计的基本假设(如平滑性与一致性)。为此,本文提出了一种新颖的“结构到纹理”生成框架,将视频插值任务分解为两个阶段:结构引导插值与纹理精细化。在第一阶段,利用深度结构感知特征,从两帧连续图像预测特征光流,并生成中间帧的结构图像;在第二阶段,基于生成的粗略结果,训练一个帧纹理补偿模块(Frame Texture Compensator),以填补细节纹理信息。据我们所知,这是首个尝试通过融合深层特征直接生成中间帧的工作。在基准数据集及具有挑战性的遮挡场景下的实验结果表明,所提出的框架在性能上显著优于现有最先进方法。代码已开源,地址为:https://github.com/CM-BF/FeatureFlow。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-frame-interpolation-on-msu-video-frame | FeFlow_f | LPIPS: 0.060 MS-SSIM: 0.911 PSNR: 24.48 SSIM: 0.902 VMAF: 60.70 |
| video-frame-interpolation-on-msu-video-frame | FeFlow | LPIPS: 0.070 MS-SSIM: 0.894 PSNR: 23.28 SSIM: 0.889 VMAF: 58.11 |
| video-frame-interpolation-on-x4k1000fps | FeFlow | PSNR: 24.00 SSIM: 0.756 tOF: 6.59 |
| video-frame-interpolation-on-x4k1000fps | FeFlow_f | PSNR: 25.16 SSIM: 0.783 tOF: 6.54 |