6 个月前

摘要

基于学习的图像压缩（Learned Image Compression, LIC）方法相较于传统图像压缩标准，展现出显著的进步以及更优的率失真性能。目前大多数LIC方法基于卷积神经网络（CNN）或Transformer架构，二者各具优势。如何有效融合二者的优势，成为值得深入探索的方向，但同时也面临两大挑战：其一，如何实现两种方法的高效融合？其二，如何在保持合理计算复杂度的前提下进一步提升性能？针对上述问题，本文提出一种高效并行的Transformer-CNN混合（Transformer-CNN Mixture, TCM）模块，该模块具备可控的复杂度，能够同时融合CNN的局部建模能力与Transformer的非局部建模能力，从而显著提升图像压缩模型的整体架构性能。此外，受近期熵估计模型与注意力机制进展的启发，我们设计了一种通道级熵模型，引入基于Swin-Transformer的参数高效注意力模块（SWAtten），并通过通道压缩（channel squeezing）机制实现更优的表达能力。实验结果表明，所提出的方法在三个不同分辨率的数据集（即Kodak、Tecnick以及CLIC Professional Validation）上均取得了当前最先进的率失真性能，优于现有各类LIC方法。代码已开源，地址为：https://github.com/jmliu206/LIC_TCM。

源 PDF