HyperAIHyperAI

Command Palette

Search for a command to run...

基于混合Transformer-CNN架构的有监督图像压缩

Jinming Liu Heming Sun Jiro Katto

摘要

基于学习的图像压缩(Learned Image Compression, LIC)方法相较于传统图像压缩标准,展现出显著的进步以及更优的率失真性能。目前大多数LIC方法基于卷积神经网络(CNN)或Transformer架构,二者各具优势。如何有效融合二者的优势,成为值得深入探索的方向,但同时也面临两大挑战:其一,如何实现两种方法的高效融合?其二,如何在保持合理计算复杂度的前提下进一步提升性能?针对上述问题,本文提出一种高效并行的Transformer-CNN混合(Transformer-CNN Mixture, TCM)模块,该模块具备可控的复杂度,能够同时融合CNN的局部建模能力与Transformer的非局部建模能力,从而显著提升图像压缩模型的整体架构性能。此外,受近期熵估计模型与注意力机制进展的启发,我们设计了一种通道级熵模型,引入基于Swin-Transformer的参数高效注意力模块(SWAtten),并通过通道压缩(channel squeezing)机制实现更优的表达能力。实验结果表明,所提出的方法在三个不同分辨率的数据集(即Kodak、Tecnick以及CLIC Professional Validation)上均取得了当前最先进的率失真性能,优于现有各类LIC方法。代码已开源,地址为:https://github.com/jmliu206/LIC_TCM


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于混合Transformer-CNN架构的有监督图像压缩 | 论文 | HyperAI超神经