3 个月前

ProPainter:提升视频修复中的传播机制与Transformer模型

ProPainter:提升视频修复中的传播机制与Transformer模型

摘要

基于流的传播(flow-based propagation)与时空Transformer(spatiotemporal Transformer)是视频修复(Video Inpainting, VI)领域的两种主流机制。尽管这些组件在实际应用中表现出色,但仍存在若干限制因素,影响其整体性能。以往基于传播的方法通常在图像域或特征域中独立进行,缺乏统一性。其中,仅在图像域进行全局传播且与学习过程分离,容易因光流估计不准确而导致空间错位问题。此外,内存或计算资源的限制也制约了特征传播和视频Transformer的时序范围,使其难以有效利用远距离帧之间的对应关系。为解决上述问题,本文提出一种改进框架——ProPainter,该框架集成了增强型传播机制与高效视频Transformer。具体而言,我们引入了双域传播(dual-domain propagation)机制,融合图像域与特征域的变形优势,从而更可靠地建模全局对应关系。同时,我们设计了一种基于掩码引导的稀疏视频Transformer,通过剔除冗余且不必要的token,显著提升计算效率。得益于上述设计,ProPainter在PSNR指标上相较现有方法取得了高达1.46 dB的提升,同时保持了优异的运行效率。

代码仓库

sczhou/propainter
官方
pytorch
GitHub 中提及
osmr/pytorchcv
pytorch
GitHub 中提及
osmr/propainter
GitHub 中提及

基准测试

基准方法指标
video-inpainting-on-hqvi-240pProPainter
LPIPS: 0.0388
PSNR: 30.62
SSIM: 0.9413
VFID: 0.2128
video-inpainting-on-hqvi-480pProPainter
LPIPS: 0.0457
PSNR: 30.69
SSIM: 0.9414
VFID: 0.0478
video-inpainting-on-youtube-vosProPainter
Ewarp: -
PSNR: 34.43
SSIM: 0.9735
VFID: 0.042

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ProPainter:提升视频修复中的传播机制与Transformer模型 | 论文 | HyperAI超神经