3 个月前

MLIC++：用于学习图像压缩的线性复杂度多参考熵建模

Wei Jiang Jiayu Yang Yongqi Zhai Feng Gao Ronggang Wang

摘要

在学习型图像压缩中，潜在表示（latent representation）包含了通道间、局部空间以及全局空间的相关性，这些上下文信息对于熵模型实现条件熵最小化至关重要。然而，在高分辨率图像编码场景下，由于现有全局上下文模块计算复杂度较高，如何在单一熵模型中高效捕获这些多尺度上下文信息仍面临挑战。为应对这一挑战，本文提出一种线性复杂度多参考熵模型（Linear Complexity Multi-Reference Entropy Model, MEM$^{++}$）。具体而言，将潜在表示划分为多个切片（slices）：针对通道间上下文，利用先前已压缩的切片作为当前切片的上下文信息；针对局部上下文，引入基于移位窗口的棋盘注意力模块（shifted-window-based checkerboard attention），在保持性能的同时实现线性计算复杂度；针对全局上下文，提出一种线性复杂度注意力机制，通过分解softmax运算，隐式地从先前解码的切片中计算注意力图，从而高效建模全局相关性。基于MEM$^{++}$构建了图像压缩方法MLIC$^{++}$。大量实验结果表明，MLIC$^{++}$在性能上达到当前领先水平，在Kodak数据集上相较VTM-17.0在峰值信噪比（PSNR）指标下实现了13.39%的BD-rate降低。此外，MLIC$^{++}$在计算复杂度和内存消耗方面均表现出与图像分辨率呈线性关系的特性，显著提升了高分辨率图像编码的效率与实用性。代码与预训练模型已开源，地址为：https://github.com/JiangWeibeta/MLIC；训练数据集可通过Hugging Face获取：https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K。

代码仓库

jiangweibeta/mlic

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
image-compression-on-kodak	MLIC++	BD-Rate over VTM-17.0: -13.39

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供