
摘要
我们提出了一种帧插值算法,能够从两幅具有大运动间隔的输入图像中合成多帧中间帧。现有的方法通常采用多个网络分别估计光流或深度信息,并辅以一个独立的网络进行帧合成,这种方法往往结构复杂,且依赖稀缺的光流或深度真值数据。在本工作中,我们提出一种单一的统一网络架构,其核心特征是采用多尺度特征提取器,并在所有尺度间共享权重,且仅需视频帧即可进行端到端训练。为生成清晰自然的插值帧,我们引入基于Gram矩阵的损失函数,该损失通过度量特征图之间的相关性差异来优化网络性能。实验结果表明,我们的方法在Xiph大运动基准测试中优于当前最先进的技术;与采用感知损失的方法相比,在Vimeo-90K、Middlebury和UCF101数据集上也取得了更高的评价分数。我们进一步研究了权重共享机制以及在运动范围逐步增大的数据集上进行训练的影响。最后,我们在一个具有挑战性的近似重复图像数据集上展示了本模型在生成高质量、时间上一致的视频序列方面的出色表现。相关代码与预训练模型已公开,可访问 https://film-net.github.io。
代码仓库
google-research/frame-interpolation
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-frame-interpolation-on-middlebury | FILM | PSNR: 37.52 SSIM: 0.966 |
| video-frame-interpolation-on-msu-video-frame | FILM | LPIPS: 0.033 MS-SSIM: 0.948 PSNR: 28.11 SSIM: 0.928 VMAF: 68.68 |
| video-frame-interpolation-on-ucf101-1 | FILM | PSNR: 35.32 SSIM: 0.952 |
| video-frame-interpolation-on-vimeo90k | FILM | PSNR: 36.06 SSIM: 0.97 |
| video-frame-interpolation-on-xiph-2k | FILM | PSNR: 36.66 SSIM: 0.951 |
| video-frame-interpolation-on-xiph-4k-1 | FILM | PSNR: 33.78 SSIM: 0.906 |