3 个月前

缺陷感知的掩码Transformer用于视频修复

缺陷感知的掩码Transformer用于视频修复

摘要

近年来,视频修复(video inpainting)方法通过引入显式引导信息(如光流)来实现跨帧像素的传播,取得了显著进展。然而,在某些情况下,被遮挡区域在视频中缺乏跨帧的重复结构,导致现有方法性能受限。在此类情形下,模型不再依赖从其他帧借用像素,而是转向解决逆问题(inverse problem)的建模。本文提出一种支持双模态(图像与视频)的修复框架——缺陷感知掩码Transformer(Deficiency-aware Masked Transformer, DMT),具备三大优势:首先,我们预先训练了一个图像修复模型 DMT_img,作为先验知识用于蒸馏视频修复模型 DMT_vid,从而有效提升对缺失结构的合理推断能力;其次,模型中的自注意力模块通过选择性地融合时空特征令牌(spatiotemporal tokens),在加速推理的同时有效抑制噪声信号;第三,我们引入了一个简单而高效的感受野上下文增强模块(Receptive Field Contextualizer),进一步提升了修复性能。在 YouTube-VOS 和 DAVIS 数据集上的大量实验表明,DMT_vid 显著优于现有方法。代码与视频演示可访问 GitHub:github.com/yeates/DMT。

代码仓库

yeates/dmt
官方
GitHub 中提及

基准测试

基准方法指标
video-inpainting-on-davisDMT
Ewarp: -
PSNR: 33.82
SSIM: 0.976
VFID: 0.104
video-inpainting-on-youtube-vosDMT
Ewarp: -
PSNR: 34.27
SSIM: 0.9730
VFID: 0.044

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
缺陷感知的掩码Transformer用于视频修复 | 论文 | HyperAI超神经