3 个月前

用于高效视频帧插值的多对多Splatting

用于高效视频帧插值的多对多Splatting

摘要

基于运动的视频帧插值通常依赖光流将输入帧的像素映射至目标插值时刻。然而,由于运动估计本身存在固有挑战(如遮挡和运动不连续性),当前大多数先进的插值方法仍需对光流 warped 结果进行后续精炼,以生成高质量输出,这极大地降低了多帧插值的效率。为此,本文提出一种完全可微的多对多(Many-to-Many, M2M)点投影(splatting)框架,实现高效帧插值。具体而言,针对一对输入帧,我们估计多组双向光流,直接将像素前向映射至目标时间点,并对重叠区域的像素进行融合。在此机制下,每个源帧像素可贡献于多个目标帧像素,而每个目标像素亦可由更广泛的视觉上下文区域合成,从而构建出具有强鲁棒性的多对多点投影结构,有效缓解孔洞等伪影问题。此外,对于每一对输入帧,M2M仅需进行一次运动估计,在插值任意数量中间帧时计算开销极低,因而实现了快速的多帧插值。我们开展了大量实验对M2M进行分析,结果表明,该方法在显著提升效率的同时,仍能保持优异的插值效果。

代码仓库

feinanshan/m2m_vfi
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-frame-interpolation-on-atd-12kM2M-PWC
PSNR: 29.03
SSIM: 0.959
video-frame-interpolation-on-ucf101-1M2M-PWC
PSNR: 35.17
SSIM: 0.97
video-frame-interpolation-on-vimeo90kM2M-PWC
PSNR: 35.4
SSIM: 0.978
Speed (ms/f): 32 (Titan X)
video-frame-interpolation-on-x4k1000fpsM2M-PWC
PSNR: 30.81
SSIM: 0.912
Speed (ms/f): 200 (Titan X)
video-frame-interpolation-on-x4k1000fps-2kM2M-PWC
PSNR: 32.07
SSIM: 0.923
video-frame-interpolation-on-xiph-2kM2M-PWC
PSNR: 36.45
SSIM: 0.967
video-frame-interpolation-on-xiph-4k-cropM2M-PWC
PSNR: 33.93
SSIM: 0.945

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于高效视频帧插值的多对多Splatting | 论文 | HyperAI超神经