3 个月前

探索运动模糊性与对齐以实现高质量视频帧插值

探索运动模糊性与对齐以实现高质量视频帧插值

摘要

在视频帧插值(Video Frame Interpolation, VFI)任务中,现有的基于深度学习的方法强烈依赖于真实标签(Ground Truth, GT)中间帧,这在一定程度上忽略了从相邻帧推断运动时可能存在的非唯一性问题。因此,这些方法往往生成平均化的结果,导致插值帧清晰度不足。为缓解这一问题,本文提出放宽对中间帧重建为尽可能接近真实标签的要求。基于一个假设——插值内容应与给定帧中的对应区域保持相似的结构特征——我们设计了一种纹理一致性损失(Texture Consistency Loss, TCL)。该损失鼓励预测结果满足结构一致性约束,即使其与预定义的GT存在差异。无需额外复杂模块,所提出的即插即用型TCL可有效提升现有VFI框架的性能。另一方面,以往方法通常采用代价体(cost volume)或相关图(correlation map)来实现更精确的图像/特征变形。然而,这类方法存在O(N²)的计算复杂度(其中N表示像素数量),在高分辨率场景下难以应用。为此,本文提出一种简单、高效(O(N))且强大的跨尺度金字塔对齐(Cross-scale Pyramid Alignment, CSPA)模块,充分挖掘多尺度信息。大量实验结果验证了所提方法在效率与有效性方面的显著优势。

基准测试

基准方法指标
video-frame-interpolation-on-middleburyMA-CSPA
PSNR: 38.83
video-frame-interpolation-on-ucf101-1MA-CSPA
PSNR: 35.43
SSIM: 0.979
video-frame-interpolation-on-vimeo90kMA-CSPA
PSNR: 36.76
SSIM: 0.9800

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索运动模糊性与对齐以实现高质量视频帧插值 | 论文 | HyperAI超神经