
摘要
本文介绍了Uformer,一种基于Transformer的有效且高效的图像修复架构,其中我们使用Transformer模块构建了一个分层的编码器-解码器网络。Uformer包含两个核心设计。首先,我们引入了一种新颖的局部增强窗口(LeWin)Transformer模块,该模块执行非重叠窗口自注意力机制而非全局自注意力机制。这在高分辨率特征图上显著降低了计算复杂度,同时捕捉了局部上下文信息。其次,我们提出了一种可学习的多尺度修复调制器,以多尺度空间偏置的形式调整Uformer解码器多个层次中的特征。我们的调制器在各种图像修复任务中展示了出色的细节恢复能力,同时仅引入了少量额外参数和计算成本。得益于这两种设计,Uformer在捕捉图像修复中的局部和全局依赖关系方面表现出色。为了评估我们的方法,我们在多个图像修复任务上进行了广泛的实验,包括图像去噪、运动去模糊、散焦去模糊和去雨。无需复杂的技巧,我们的Uformer在性能上达到了优于或与现有最先进算法相当的水平。代码和模型可在https://github.com/ZhendongWang6/Uformer 获取。
代码仓库
lucidrains/ddpm-proteins
pytorch
GitHub 中提及
ZhendongWang6/Uformer
官方
pytorch
GitHub 中提及
jorgmateos/uformer-google-colab
GitHub 中提及
lucidrains/uformer-pytorch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| deblurring-on-gopro | Uformer-B | PSNR: 32.97 SSIM: 0.967 |
| deblurring-on-hide-trained-on-gopro | Uformer-B | PSNR (sRGB): 30.83 Params (M): 50.88 SSIM (sRGB): 0.952 |
| deblurring-on-realblur-j-trained-on-gopro | Uformer-B | PSNR (sRGB): 29.06 SSIM (sRGB): 0.884 |
| deblurring-on-realblur-r-trained-on-gopro | Uformer-B | PSNR (sRGB): 36.22 SSIM (sRGB): 0.957 |
| deblurring-on-rsblur | Uformer-B | Average PSNR: 33.98 |
| image-deblurring-on-gopro | Uformer-B | PSNR: 32.97 Params (M): 50.88 SSIM: 0.967 |
| image-dehazing-on-sots-indoor | Uformer | PSNR: 31.91 SSIM: 0.971 |
| image-dehazing-on-sots-outdoor | Uformer | PSNR: 26.52 SSIM: 0.945 |
| image-denoising-on-dnd | Uformer-B | PSNR (sRGB): 39.98 SSIM (sRGB): 0.955 |
| image-denoising-on-sidd | Uformer-B | PSNR (sRGB): 39.89 SSIM (sRGB): 0.960 |
| image-enhancement-on-tip-2018 | Uformer-B | PSNR: 29.28 SSIM: 0.917 |
| single-image-desnowing-on-csd | UFormer | Average PSNR (dB): 33.80 |