3 个月前

基于混合Transformer-CNN架构的有监督图像压缩

基于混合Transformer-CNN架构的有监督图像压缩

摘要

基于学习的图像压缩(Learned Image Compression, LIC)方法相较于传统图像压缩标准,展现出显著的进步以及更优的率失真性能。目前大多数LIC方法基于卷积神经网络(CNN)或Transformer架构,二者各具优势。如何有效融合二者的优势,成为值得深入探索的方向,但同时也面临两大挑战:其一,如何实现两种方法的高效融合?其二,如何在保持合理计算复杂度的前提下进一步提升性能?针对上述问题,本文提出一种高效并行的Transformer-CNN混合(Transformer-CNN Mixture, TCM)模块,该模块具备可控的复杂度,能够同时融合CNN的局部建模能力与Transformer的非局部建模能力,从而显著提升图像压缩模型的整体架构性能。此外,受近期熵估计模型与注意力机制进展的启发,我们设计了一种通道级熵模型,引入基于Swin-Transformer的参数高效注意力模块(SWAtten),并通过通道压缩(channel squeezing)机制实现更优的表达能力。实验结果表明,所提出的方法在三个不同分辨率的数据集(即Kodak、Tecnick以及CLIC Professional Validation)上均取得了当前最先进的率失真性能,优于现有各类LIC方法。代码已开源,地址为:https://github.com/jmliu206/LIC_TCM。

代码仓库

fengyurenpingsheng/WeConvene
pytorch
GitHub 中提及
jmliu206/lic_tcm
官方
pytorch
GitHub 中提及
Nikolai10/LIC-TCM
tf
GitHub 中提及

基准测试

基准方法指标
image-compression-on-kodakLIC-TCM Large
BD-Rate over VTM-17.0: -10.14

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于混合Transformer-CNN架构的有监督图像压缩 | 论文 | HyperAI超神经