6 个月前

摘要

隐式神经表示将视频以神经网络的形式进行存储，在视频压缩、去噪等多种视觉任务中表现出色。现有方法（如NeRV、E-NeRV等）通常以帧索引或位置索引作为输入，利用固定且与内容无关的嵌入向量重建视频，这类嵌入向量在很大程度上限制了模型的回归能力与内部泛化性能，尤其在视频插值任务中表现受限。本文提出一种面向视频的混合神经表示方法（Hybrid Neural Representation for Videos, HNeRV），其中引入可学习的编码器生成与内容自适应的嵌入向量，作为解码器的输入。此外，我们设计了HNeRV模块，确保网络中模型参数在整个架构中均匀分布，使得靠近输出的高层网络具备更强的能力以存储高分辨率内容与视频细节。得益于内容自适应嵌入与重构的网络结构，HNeRV在视频回归任务中显著优于现有隐式方法：在重建质量方面提升4.7 dB（PSNR），收敛速度提高16倍，同时展现出更优的内部泛化能力。作为一种简洁高效的视频表示方式，HNeRV在解码速度、灵活性与部署便捷性方面，相较传统编码标准（如H.264、H.265）以及基于学习的压缩方法均具有明显优势。最后，我们进一步验证了HNeRV在下游任务（如视频压缩与视频修复）中的有效性。项目主页见：https://haochen-rye.github.io/HNeRV，代码开源地址为：https://github.com/haochen-rye/HNeRV。

源 PDF 查看代码