
摘要
近年来,基于帧的隐式神经视频表示方法NeRV因其出色的性能表现和相较于传统逐像素隐式表示的显著速度优势而受到广泛关注。然而,当为达到理想性能而扩大模型规模时,网络结构中的冗余参数会导致模型体积急剧膨胀。这一现象的根本原因在于NeRV的耦合式设计:其直接从帧索引输入中同时输出视频帧的时空信息。本文提出E-NeRV,通过将帧级隐式神经表示分解为独立的空间与时间上下文,显著提升了NeRV的运行效率。在该新范式指导下,我们的模型大幅减少了冗余参数,同时保持了强大的表示能力。实验结果表明,该方法在参数更少的情况下显著提升了性能,收敛速度提升超过8倍。代码已开源,地址为:https://github.com/kyleleey/E-NeRV。
代码仓库
kyleleey/e-nerv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-reconstruction-on-uvg | E-NeRV | Average PSNR (dB): 34.85 Model Size (M): 13.02M |