3 个月前

ST-MFNet:一种用于帧插值的时空多流网络

ST-MFNet:一种用于帧插值的时空多流网络

摘要

视频帧插值(Video Frame Interpolation, VFI)目前是计算机视觉领域一个极为活跃的研究方向,广泛应用于计算机视觉、后期制作以及视频编码等多个场景。然而,当视频序列中包含大运动、遮挡或动态纹理等复杂情况时,VFI任务极具挑战性,现有方法往往难以提供具有良好感知质量的插值效果。针对这一问题,本文提出一种基于深度学习的新方法——ST-MFNet,其核心架构为时空多流(Spatio-Temporal Multi-Flow)网络。ST-MFNet引入了一种新型的多尺度多流预测器,用于估计从多帧到单帧的中间光流,再与传统的单对单光流相结合,从而有效捕捉大范围且复杂的运动模式。为提升对各类纹理的插值性能,该方法进一步采用三维卷积神经网络(3D CNN),在更长的时间窗口内建模内容的动态变化,增强对时间连续性的建模能力。此外,ST-MFNet在ST-GAN(Spatio-Temporal Generative Adversarial Network)框架下进行训练,该框架最初专为纹理合成设计,旨在进一步优化插值结果的感知质量。我们对所提出的方法进行了全面评估,将其与十四种当前最先进的VFI算法在多个具有代表性的测试数据集上进行对比。实验结果清晰表明,ST-MFNet在各类复杂场景下均显著优于现有基准方法,尤其在包含大运动和动态纹理的案例中,峰值信噪比(PSNR)提升最高可达1.09 dB。项目主页:https://danielism97.github.io/ST-MFNet。

代码仓库

danielism97/st-mfnet
官方
pytorch
GitHub 中提及
crispianm/st-mfnet-mini
pytorch
GitHub 中提及
danier97/st-mfnet
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ST-MFNet:一种用于帧插值的时空多流网络 | 论文 | HyperAI超神经