
摘要
如何在视频序列中准确建模帧间关系,是视频恢复(Video Restoration, VR)领域一个重要 yet尚未解决的挑战。本文提出了一种无监督流对齐的序列到序列模型(S2SVR),以应对这一难题。一方面,首次将序列到序列模型(Sequence-to-Sequence Model)引入视频恢复任务中。该模型在自然语言处理领域已被证实具备强大的序列建模能力,在本工作中展现出捕捉帧间长程依赖关系的巨大潜力。另一方面,我们为该序列到序列模型引入了一个无监督光流估计器,以充分挖掘其性能潜力。该光流估计器采用本文提出的无监督蒸馏损失(unsupervised distillation loss)进行训练,有效缓解了以往基于光流方法中存在的数据分布差异及退化光流不准确等问题。借助可靠的光流信息,我们能够建立多帧之间的精确对应关系,缩小一维语言序列与二维未对齐视频帧之间的域差异,从而进一步提升序列到序列模型的建模能力。实验结果表明,S2SVR在多项视频恢复任务中均表现出优越性能,涵盖视频去模糊、视频超分辨率以及压缩视频质量增强等。相关代码与模型已公开发布于:https://github.com/linjing7/VR-Baseline
代码仓库
linjing7/VR-Baseline
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| deblurring-on-gopro | S2SVR | PSNR: 31.82 SSIM: 0.923 |
| video-enhancement-on-mfqe-v2 | S2SVR | Incremental PSNR: 0.93 |
| video-super-resolution-on-vimeo90k | S2SVR | PSNR: 37.63 |