
摘要
我们提出了一种新颖、简洁 yet 高效的基于运动的视频帧插值算法。现有的基于运动的插值方法通常依赖于预训练的光流模型或基于U-Net的金字塔网络进行运动估计,这类方法要么模型规模庞大,要么在处理复杂且大范围运动时能力受限。在本工作中,我们通过精心设计,将中间帧导向的前向映射(forward-warping)、轻量级特征编码器以及相关体积(correlation volume)集成到一个金字塔递归框架中,构建了一个紧凑的模型,能够同时估计输入帧之间的双向运动。该模型体积仅为PWC-Net的1/15,却在处理具有挑战性的运动场景时展现出更可靠且更灵活的性能。基于估计出的双向运动,我们将输入帧及其上下文特征前向映射至中间帧位置,并通过一个合成网络从映射后的表示中重建中间帧。所提方法在多种主流视频帧插值基准测试中均取得了优异的表现。代码与训练好的模型已开源,地址为:\url{https://github.com/srcn-ivl/EBME}。
代码仓库
srcn-ivl/ebme
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-frame-interpolation-on-msu-video-frame | EBME-H | LPIPS: 0.024 MS-SSIM: 0.958 PSNR: 28.77 SSIM: 0.931 VMAF: 68.20 |
| video-frame-interpolation-on-msu-video-frame | EBME | LPIPS: 0.028 MS-SSIM: 0.957 PSNR: 28.56 SSIM: 0.928 VMAF: 69.37 |
| video-frame-interpolation-on-snu-film-easy | EBME-H* | PSNR: 40.28 SSIM: 0.9910 |
| video-frame-interpolation-on-snu-film-extreme | EBME-H* | PSNR: 25.40 SSIM: 0.863 |
| video-frame-interpolation-on-snu-film-hard | EBME-H* | PSNR: 30.64 SSIM: 0.937 |
| video-frame-interpolation-on-snu-film-medium | EBME-H* | PSNR: 36.07 SSIM: 0.980 |
| video-frame-interpolation-on-ucf101-1 | EBME-H* | PSNR: 35.41 SSIM: 0.970 |
| video-frame-interpolation-on-vimeo90k | EBME-H* | PSNR: 36.19 SSIM: 0.981 |
| video-frame-interpolation-on-x4k1000fps | EBME-H* | PSNR: 29.46 SSIM: 0.902 |