3 个月前

通过帧间注意力机制提取运动与外观信息以实现高效的视频帧插值

通过帧间注意力机制提取运动与外观信息以实现高效的视频帧插值

摘要

有效提取视频帧间运动与外观信息对于视频帧插值(Video Frame Interpolation, VFI)至关重要。以往方法通常以混合方式同时提取两类信息,或为每类信息设计独立模块,导致表征模糊且计算效率低下。本文提出一种新型模块,通过统一操作显式分离并提取运动与外观信息。具体而言,我们重新思考帧间注意力机制中的信息传递过程,并复用其注意力图,分别用于外观特征增强与运动信息提取。此外,为实现高效VFI,所提模块可无缝集成至混合CNN与Transformer架构中。该混合架构在降低帧间注意力计算复杂度的同时,有效保留了底层细节结构信息。实验结果表明,无论在固定时间步长还是任意时间步长插值任务下,本方法在多个数据集上均达到当前最优性能。同时,相较于性能相近的模型,本方法具有更轻量的计算开销。源代码与预训练模型已开源,地址为:https://github.com/MCG-NJU/EMA-VFI。

代码仓库

mcg-nju/ema-vfi
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-frame-interpolation-on-msu-video-frameEMA-VFI
LPIPS: 0.022
MS-SSIM: 0.965
PSNR: 29.89
SSIM: 0.953
VMAF: 71.71
video-frame-interpolation-on-snu-film-easyEMA-VFI
PSNR: 39.98
SSIM: 0.9910
video-frame-interpolation-on-snu-film-extremeEMA-VFI
PSNR: 25.69
SSIM: 0.8661
video-frame-interpolation-on-snu-film-hardEMA-VFI
PSNR: 30.94
SSIM: 0.9392
video-frame-interpolation-on-snu-film-mediumEMA-VFI
PSNR: 36.09
SSIM: 0.9801
video-frame-interpolation-on-ucf101-1EMA-VFI
PSNR: 35.48
SSIM: 0.9701
video-frame-interpolation-on-vimeo90kEMA-VFI
PSNR: 36.64
SSIM: 0.9819
video-frame-interpolation-on-x4k1000fpsEMA-VFI
PSNR: 31.46
video-frame-interpolation-on-x4k1000fps-2kEMA-VFI
PSNR: 32.85
video-frame-interpolation-on-xiph-2kEMA-VFI
PSNR: 36.90
SSIM: 0.945
video-frame-interpolation-on-xiph-4k-1EMA-VFI
PSNR: 34.67
SSIM: 0.907

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过帧间注意力机制提取运动与外观信息以实现高效的视频帧插值 | 论文 | HyperAI超神经