3 个月前

基于流引导的稀疏Transformer用于视频去模糊

基于流引导的稀疏Transformer用于视频去模糊

摘要

在视频去模糊任务中,利用时空邻域内相似且更清晰的图像块至关重要。然而,基于卷积神经网络(CNN)的方法在捕捉长距离依赖关系以及建模非局部自相似性方面存在局限。本文提出一种新型框架——光流引导稀疏变换器(Flow-Guided Sparse Transformer, FGST),用于视频去模糊。在FGST中,我们设计了一种自注意力模块——光流引导稀疏窗口多头自注意力(Flow-Guided Sparse Window-based Multi-head Self-Attention, FGSW-MSA)。针对模糊参考帧上的每个查询(query)元素,FGSW-MSA借助估计的光流信息,全局地采样来自相邻帧中对应同一场景块的空间稀疏但高度相关的键(key)元素,从而有效建模跨帧的非局部相似性。此外,我们引入了一种循环嵌入(Recurrent Embedding, RE)机制,用于传递历史帧的信息,增强长时序依赖建模能力。大量实验表明,所提出的FGST在DVD和GOPRO数据集上均优于当前最先进的方法(SOTA),并在真实视频去模糊任务中呈现出更为自然、视觉效果更优的结果。代码与预训练模型已公开发布于:https://github.com/linjing7/VR-Baseline

代码仓库

linjing7/VR-Baseline
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
deblurring-on-dvdFGST
PSNR: 33.03
deblurring-on-dvd-1FGST
PSNR: 33.50
deblurring-on-goproFGST
PSNR: 33.03
SSIM: 0.964

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于流引导的稀疏Transformer用于视频去模糊 | 论文 | HyperAI超神经