3 个月前

FFNeRV:面向视频的流引导帧级神经表示

FFNeRV:面向视频的流引导帧级神经表示

摘要

神经场(Neural fields),亦称基于坐标的隐式神经表示,已展现出在表示、生成和操控各类信号方面的卓越能力。然而,在视频表示任务中,将像素坐标映射为RGB颜色的方法在压缩性能方面表现相对较低,且存在收敛速度慢、推理效率不高的问题。近年来,帧级视频表示方法应运而生——该方法将时间坐标映射至完整帧内容,成为一种替代方案,显著提升了压缩率与编码速度。尽管前景可期,该方法尚未达到当前先进视频压缩算法的性能水平。在本研究中,我们提出一种名为FFNeRV的新方法,通过在帧级表示中引入光流信息,借鉴标准视频编解码器中对帧间时序冗余的利用机制,以更高效地建模视频序列中的时间相关性。此外,我们设计了一种全卷积架构,依托一维时间网格,有效提升了空间特征的连续性。实验结果表明,FFNeRV在采用帧级表示或神经场的各类方法中,于视频压缩与帧插值任务上均取得了最优性能。为进一步减小模型规模,我们进一步提出一种更为紧凑的卷积架构,结合分组卷积(group convolution)与逐点卷积(pointwise convolution)技术。结合量化感知训练(quantization-aware training)与熵编码等模型压缩技术,FFNeRV在性能上超越了广泛应用的标准视频编解码器(如H.264与HEVC),并达到与当前最先进视频压缩算法相当的水平。

代码仓库

maincold2/FFNeRV
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-reconstruction-on-uvgFFNeRV
Average PSNR (dB): 35.63
Model Size (M): 12.66M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FFNeRV:面向视频的流引导帧级神经表示 | 论文 | HyperAI超神经