3 个月前

基于光流引导的Transformer视频修复

基于光流引导的Transformer视频修复

摘要

Transformer 由于其多头自注意力(Multi-Head Self-Attention, MHSA)机制,在视频处理任务中得到了广泛应用。然而,MHSA 机制在视频修复(video inpainting)任务中面临一个固有难题:与损坏区域相关的特征会因退化而产生不准确的自注意力计算,这一问题被称为“查询退化”(query degradation)。在我们先前的工作中,已验证通过先完成光流估计,再利用光流引导自注意力机制,可有效缓解该问题,由此提出了光流引导 Transformer(Flow-Guided Transformer, FGT)。在此基础上,本文进一步挖掘光流引导的潜力,提出 FGT++,以实现更高效、更精准的视频修复。具体而言,本文的贡献包括三个方面:首先,设计了一种轻量级的光流补全网络,通过引入局部聚合机制与边缘损失(edge loss),提升光流估计的精度与效率;其次,为应对查询退化问题,提出一种光流引导特征融合模块(flow-guided feature integration module),利用运动差异信息增强特征表示;同时,设计了一种光流引导的特征传播模块(flow-guided feature propagation module),根据光流对特征进行空间变形(warping),从而实现更合理的特征迁移;第三,将 Transformer 在时序与空间维度上进行解耦,其中利用光流实现时序可变形的多头自注意力机制(temporally deformable MHSA),以动态选择关键时间帧的 token;同时,通过双视角多头自注意力机制(dual perspective MHSA),将全局 token 与窗口内局部 token 进行融合,增强模型对时空上下文的理解能力。实验结果表明,FGT++ 在定性和定量评估上均显著优于现有的视频修复方法,展现出更强的修复效果与更高的计算效率。

代码仓库

hitachinsk/fgt
pytorch
GitHub 中提及
hitachinsk/isvi
pytorch
GitHub 中提及

基准测试

基准方法指标
video-inpainting-on-davisFGT++
LPIPS (object): 0.035
LPIPS (square): 0.028
PNSR (object): 35.61
SSIM (object): 0.961
SSIM (square): 0.971
video-inpainting-on-davisFGT++*
LPIPS (object): 0.027
LPIPS (square): 0.022
PNSR (object): 35.9
SSIM (object): 96.8
SSIM (square): 97.6
video-inpainting-on-youtube-vos-1FGT++
LPIPS: 0.025
PSNR: 35.02
PSNR (square): 33.18
SSIM: 97.6
video-inpainting-on-youtube-vos-1FGT++*
LPIPS: 0.022
PSNR: 35.36
PSNR (square): 33.72
SSIM: 97.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于光流引导的Transformer视频修复 | 论文 | HyperAI超神经