3 个月前

用于视频帧插值的增强型双向运动估计

用于视频帧插值的增强型双向运动估计

摘要

我们提出了一种新颖、简洁 yet 高效的基于运动的视频帧插值算法。现有的基于运动的插值方法通常依赖于预训练的光流模型或基于U-Net的金字塔网络进行运动估计,这类方法要么模型规模庞大,要么在处理复杂且大范围运动时能力受限。在本工作中,我们通过精心设计,将中间帧导向的前向映射(forward-warping)、轻量级特征编码器以及相关体积(correlation volume)集成到一个金字塔递归框架中,构建了一个紧凑的模型,能够同时估计输入帧之间的双向运动。该模型体积仅为PWC-Net的1/15,却在处理具有挑战性的运动场景时展现出更可靠且更灵活的性能。基于估计出的双向运动,我们将输入帧及其上下文特征前向映射至中间帧位置,并通过一个合成网络从映射后的表示中重建中间帧。所提方法在多种主流视频帧插值基准测试中均取得了优异的表现。代码与训练好的模型已开源,地址为:\url{https://github.com/srcn-ivl/EBME}。

代码仓库

srcn-ivl/ebme
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-frame-interpolation-on-msu-video-frameEBME-H
LPIPS: 0.024
MS-SSIM: 0.958
PSNR: 28.77
SSIM: 0.931
VMAF: 68.20
video-frame-interpolation-on-msu-video-frameEBME
LPIPS: 0.028
MS-SSIM: 0.957
PSNR: 28.56
SSIM: 0.928
VMAF: 69.37
video-frame-interpolation-on-snu-film-easyEBME-H*
PSNR: 40.28
SSIM: 0.9910
video-frame-interpolation-on-snu-film-extremeEBME-H*
PSNR: 25.40
SSIM: 0.863
video-frame-interpolation-on-snu-film-hardEBME-H*
PSNR: 30.64
SSIM: 0.937
video-frame-interpolation-on-snu-film-mediumEBME-H*
PSNR: 36.07
SSIM: 0.980
video-frame-interpolation-on-ucf101-1EBME-H*
PSNR: 35.41
SSIM: 0.970
video-frame-interpolation-on-vimeo90kEBME-H*
PSNR: 36.19
SSIM: 0.981
video-frame-interpolation-on-x4k1000fpsEBME-H*
PSNR: 29.46
SSIM: 0.902

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于视频帧插值的增强型双向运动估计 | 论文 | HyperAI超神经