4 个月前

MAXIM:用于图像处理的多轴MLP

MAXIM:用于图像处理的多轴MLP

摘要

近期在Transformer和多层感知机(MLP)模型方面的进展为计算机视觉任务提供了新的网络架构设计。尽管这些模型在图像识别等许多视觉任务中已被证明是有效的,但在低级视觉任务中的适应仍面临挑战。支持高分辨率图像的灵活性不足以及局部注意力机制的局限性可能是主要瓶颈。在这项工作中,我们提出了一种基于多轴MLP的架构,称为MAXIM,该架构可以作为高效且灵活的通用视觉主干网络用于图像处理任务。MAXIM采用了UNet形状的分层结构,并通过空间门控MLP支持长距离交互。具体而言,MAXIM包含两个基于MLP的构建模块:一个多轴门控MLP,允许高效且可扩展地混合局部和全局视觉线索;一个交叉门控块,作为交叉注意力机制的替代方案,负责跨特征调节。这两个模块完全基于MLP,但同时也具备全局性和“全卷积”两个对图像处理有利的特性。我们的大量实验结果表明,所提出的MAXIM模型在包括去噪、去模糊、去雨、去雾和增强在内的多种图像处理任务中,在超过十个基准测试上达到了最先进的性能,同时所需的参数数量和浮点运算次数比竞争模型更少或相当。源代码和训练好的模型将在\url{https://github.com/google-research/maxim}提供。

代码仓库

google-research/maxim
官方
jax
GitHub 中提及
vztu/maxim-pytorch
pytorch
GitHub 中提及
sayakpaul/maxim-tf
tf
GitHub 中提及

基准测试

基准方法指标
deblurring-on-basedMAXIM (REDS)
ERQAv2.0: 0.74277
LPIPS: 0.07836
SSIM: 0.94959
Subjective: 1.0081
VMAF: 67.3502
deblurring-on-basedMAXIM (GoPro)
LPIPS: 0.09188
PSNR: 31.36344
SSIM: 0.94386
Subjective: 0.2070
VMAF: 67.7557
deblurring-on-based-1MAXIM (REDS)
PSNR: 30.65728
deblurring-on-goproMAXIM-3S
PSNR: 32.86
deblurring-on-hideMAXIM-3S
PSNR: 32.83
deblurring-on-hide-trained-on-goproMAXIM
PSNR (sRGB): 32.83
Params (M): 22.2
SSIM (sRGB): 0.956
deblurring-on-realblur-j-1MAXIM
PSNR (sRGB): 32.84
Params(M): 22.2
SSIM (sRGB): 0.935
deblurring-on-realblur-j-trained-on-goproMAXIM
PSNR (sRGB): 28.83
SSIM (sRGB): 0.875
deblurring-on-realblur-rMAXIM
PSNR (sRGB): 39.45
deblurring-on-realblur-rMAXIM-3S
SSIM (sRGB): 0.961
deblurring-on-realblur-r-trained-on-goproMAXIM
PSNR (sRGB): 35.78
image-deblurring-on-goproMAXIM-3S
PSNR: 32.86
image-deblurring-on-hideMAXIM-3S
SSIM: 0.956
image-dehazing-on-sots-indoorMAXIM-2S
PSNR: 38.11
image-dehazing-on-sots-outdoorMAXIM-2S
PSNR: 34.19
image-denoising-on-dndMAXIM-3S
PSNR (sRGB): 39.84
SSIM (sRGB): 0.954
image-denoising-on-siddMAXIM-3S
PSNR (sRGB): 39.96
SSIM (sRGB): 0.960
low-light-image-enhancement-on-lolMAXIM
Average PSNR: 23.43
SSIM: 0.863
photo-retouching-on-mit-adobe-5kMAXIM
PSNR: 26.15
SSIM: 0.945
single-image-deraining-on-rain100hMAXIM
SSIM: 0.903
single-image-deraining-on-rain100lMAXIM
SSIM: 0.977
single-image-deraining-on-test100MAXIM
PSNR: 31.17
SSIM: 0.922
single-image-deraining-on-test1200MAXIM
SSIM: 0.922
single-image-deraining-on-test2800MAXIM
PSNR: 33.80

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MAXIM:用于图像处理的多轴MLP | 论文 | HyperAI超神经