8 个月前

摘要

本文介绍了Uformer，一种基于Transformer的有效且高效的图像修复架构，其中我们使用Transformer模块构建了一个分层的编码器-解码器网络。Uformer包含两个核心设计。首先，我们引入了一种新颖的局部增强窗口（LeWin）Transformer模块，该模块执行非重叠窗口自注意力机制而非全局自注意力机制。这在高分辨率特征图上显著降低了计算复杂度，同时捕捉了局部上下文信息。其次，我们提出了一种可学习的多尺度修复调制器，以多尺度空间偏置的形式调整Uformer解码器多个层次中的特征。我们的调制器在各种图像修复任务中展示了出色的细节恢复能力，同时仅引入了少量额外参数和计算成本。得益于这两种设计，Uformer在捕捉图像修复中的局部和全局依赖关系方面表现出色。为了评估我们的方法，我们在多个图像修复任务上进行了广泛的实验，包括图像去噪、运动去模糊、散焦去模糊和去雨。无需复杂的技巧，我们的Uformer在性能上达到了优于或与现有最先进算法相当的水平。代码和模型可在https://github.com/ZhendongWang6/Uformer 获取。

源 PDF