
摘要
时空视频超分辨率(STVSR)是指将低帧率(LFR)和低分辨率(LR)视频插值生成高帧率(HFR)和高分辨率(HR)视频的任务。现有的基于卷积神经网络(CNN)的方法虽然在视觉效果上取得了令人满意的结果,但由于其复杂的架构导致推理速度较慢。我们提出了一种使用时空变换器的方法,该方法自然地将空间和时间超分辨率模块整合到一个单一模型中。与基于CNN的方法不同,我们没有显式地使用独立的构建块来进行时间插值和空间超分辨率;相反,我们仅使用一种端到端的变换器架构。具体而言,编码器根据输入的LFR和LR帧构建了一个可重用的字典,然后在解码部分利用该字典合成HFR和HR帧。与最先进的TMNet \cite{xu2021temporal}相比,我们的网络规模减少了60%(4.5M参数对比12.3M参数),并且在不牺牲性能的情况下速度快了80%(在720×576帧上的处理速度为26.2fps对比14.3fps)。源代码可在https://github.com/llmpass/RSTT获取。
代码仓库
llmpass/RSTT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| space-time-video-super-resolution-on-vimeo90k | RSTT-M | PSNR: 36.78 SSIM: 0.9401 |
| space-time-video-super-resolution-on-vimeo90k | RSTT-L | PSNR: 36.80 SSIM: 0.9403 |
| space-time-video-super-resolution-on-vimeo90k | RSTT-S | PSNR: 36.58 SSIM: 0.9381 |
| space-time-video-super-resolution-on-vimeo90k-1 | RSTT-M | PSNR: 35.62 SSIM: 0.9377 |
| space-time-video-super-resolution-on-vimeo90k-1 | RSTT-S | PSNR: 35.43 SSIM: 0.9358 |
| space-time-video-super-resolution-on-vimeo90k-1 | RSTT-L | PSNR: 35.66 SSIM: 0.9381 |
| video-frame-interpolation-on-vid4-4x | RSTT-S | PSNR: 26.29 Parameters: 4490000 SSIM: 0.7941 |
| video-frame-interpolation-on-vid4-4x | RSTT-L | PSNR: 26.43 Parameters: 7670000 SSIM: 0.7994 |
| video-frame-interpolation-on-vid4-4x | RSTT-M | PSNR: 26.37 Parameters: 6080000 SSIM: 0.7978 |