4 个月前

RSTT:用于时空视频超分辨率的实时空间时间变换器

RSTT:用于时空视频超分辨率的实时空间时间变换器

摘要

时空视频超分辨率(STVSR)是指将低帧率(LFR)和低分辨率(LR)视频插值生成高帧率(HFR)和高分辨率(HR)视频的任务。现有的基于卷积神经网络(CNN)的方法虽然在视觉效果上取得了令人满意的结果,但由于其复杂的架构导致推理速度较慢。我们提出了一种使用时空变换器的方法,该方法自然地将空间和时间超分辨率模块整合到一个单一模型中。与基于CNN的方法不同,我们没有显式地使用独立的构建块来进行时间插值和空间超分辨率;相反,我们仅使用一种端到端的变换器架构。具体而言,编码器根据输入的LFR和LR帧构建了一个可重用的字典,然后在解码部分利用该字典合成HFR和HR帧。与最先进的TMNet \cite{xu2021temporal}相比,我们的网络规模减少了60%(4.5M参数对比12.3M参数),并且在不牺牲性能的情况下速度快了80%(在720×576帧上的处理速度为26.2fps对比14.3fps)。源代码可在https://github.com/llmpass/RSTT获取。

代码仓库

llmpass/RSTT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
space-time-video-super-resolution-on-vimeo90kRSTT-M
PSNR: 36.78
SSIM: 0.9401
space-time-video-super-resolution-on-vimeo90kRSTT-L
PSNR: 36.80
SSIM: 0.9403
space-time-video-super-resolution-on-vimeo90kRSTT-S
PSNR: 36.58
SSIM: 0.9381
space-time-video-super-resolution-on-vimeo90k-1RSTT-M
PSNR: 35.62
SSIM: 0.9377
space-time-video-super-resolution-on-vimeo90k-1RSTT-S
PSNR: 35.43
SSIM: 0.9358
space-time-video-super-resolution-on-vimeo90k-1RSTT-L
PSNR: 35.66
SSIM: 0.9381
video-frame-interpolation-on-vid4-4xRSTT-S
PSNR: 26.29
Parameters: 4490000
SSIM: 0.7941
video-frame-interpolation-on-vid4-4xRSTT-L
PSNR: 26.43
Parameters: 7670000
SSIM: 0.7994
video-frame-interpolation-on-vid4-4xRSTT-M
PSNR: 26.37
Parameters: 6080000
SSIM: 0.7978

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RSTT:用于时空视频超分辨率的实时空间时间变换器 | 论文 | HyperAI超神经