4 个月前

具有引导变形注意力的循环视频修复变换器

具有引导变形注意力的循环视频修复变换器

摘要

视频修复旨在从多个低质量帧中恢复出多个高质量帧。现有的视频修复方法通常分为两种极端情况,即要么并行恢复所有帧,要么以递归方式逐帧恢复,这两种方法各有优缺点。前者的优势在于时间信息融合,但模型体积庞大且内存消耗严重;后者由于在不同帧之间共享参数,因此模型体积相对较小,然而它缺乏长距离依赖建模能力和并行处理能力。本文中,我们尝试通过提出一种递归视频修复变压器(Recurrent Video Restoration Transformer, RVRT)来整合这两种方法的优点。RVRT 在全局递归框架内并行处理局部相邻帧,从而在模型体积、效果和效率之间实现了良好的平衡。具体而言,RVRT 将视频划分为多个片段,并利用先前推断的片段特征来估计后续片段的特征。在每个片段内部,不同的帧特征通过隐式特征聚合进行联合更新。而在不同片段之间,则设计了引导变形注意力机制用于片段对齐,该机制从整个已推断的片段中预测多个相关位置,并通过注意力机制聚合这些位置的特征。大量实验表明,在视频超分辨率、去模糊和降噪任务上,所提出的 RVRT 在基准数据集上取得了最先进的性能,并且在模型体积、测试内存和运行时间方面达到了平衡。

代码仓库

Ascend-Research/Turtle
pytorch
GitHub 中提及
xg416/DATUM
pytorch
GitHub 中提及
labshuhanggu/mia-vsr
pytorch
GitHub 中提及
jingyunliang/rvrt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
analog-video-restoration-on-tapeRVRT
LPIPS: 0.117
PSNR: 32.47
SSIM: 0.896
VMAF: 72.41
deblurring-on-dvd-1RVRT
PSNR: 34.92
SSIM: 97.38
video-denoising-on-davis-sigma10RVRT
PSNR: 40.57
video-denoising-on-davis-sigma20RVRT
PSNR: 38.05
video-denoising-on-davis-sigma30RVRT
PSNR: 36.57
video-denoising-on-davis-sigma40RVRT
PSNR: 35.47
video-denoising-on-davis-sigma50RVRT
PSNR: 34.57
video-denoising-on-set8-sigma10RVRT
PSNR: 37.53
video-denoising-on-set8-sigma20RVRT
PSNR: 34.83
video-denoising-on-set8-sigma30RVRT
PSNR: 33.3
video-denoising-on-set8-sigma40RVRT
PSNR: 32.21
video-denoising-on-set8-sigma50RVRT
PSNR: 31.33
video-deraining-on-vrdsRVRT
PSNR: 28.24
SSIM: 0.8857
video-super-resolution-on-udm10-4x-upscalingRVRT
PSNR: 40.9
SSIM: 0.9729
video-super-resolution-on-vid4-4x-upscalingRVRT
PSNR: 27.99
SSIM: 0.8462
video-super-resolution-on-vid4-4x-upscaling-1RVRT
PSNR: 29.54
SSIM: 0.8810
video-super-resolution-on-vimeo90kRVRT
PSNR: 38.59
SSIM: 0.9576

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
具有引导变形注意力的循环视频修复变换器 | 论文 | HyperAI超神经