6 个月前

摘要

在视频压缩领域，如何在更低的码率下实现更优的视频质量，始终是一个长期追求的目标。近年来的研究表明，隐式神经表示（Implicit Neural Representation, INR）作为一种有前景的替代方案，展现出超越传统基于变换的方法的潜力。根据网络输出结构的不同，视频INR大致可分为逐帧（frame-wise）与逐像素（pixel-wise）两类方法。尽管逐像素方法在超分辨率重建和并行化处理方面更具优势，但逐帧方法在性能上表现更优。本文提出一种新型的逐像素INR方法——CoordFlow，其在与现有逐像素INR方法的对比中取得了当前最优的压缩性能，并在关键指标上达到与领先逐帧方法相当的水平。该方法的核心思想是将视觉信息分解为若干视觉一致的层次，每一层由专用网络进行建模，并独立补偿该层的运动信息。在模型集成后，自然产生一种无监督的视频序列分割结果。通过隐式利用物体运动轨迹，该方法有效缓解了视频中时空冗余问题。此外，所提出的方法还具备天然的视频超分辨率、稳定化、图像修复（inpainting）及去噪能力，展现出强大的多功能性与应用潜力。

源 PDF