
摘要
基于Transformer的模型通过其天然捕捉复杂上下文特征的能力,彻底革新了图像超分辨率(Super-Resolution, SR)领域。当前Transformer架构中广泛采用的重叠矩形移位窗口(overlapping rectangular shifted window)机制,已成为提升图像上采样质量与鲁棒性的常用策略。然而,该方法在图像边界处容易引入失真,且可实现的移位模式种类有限。为克服上述缺陷,本文提出一种非重叠三角形窗口机制,该机制与矩形窗口协同工作,有效缓解边界失真问题,并使模型能够探索更多独特的特征筛选模式。本文进一步提出一种复合融合注意力Transformer(Composite Fusion Attention Transformer, CFAT)模型,该模型在图像超分辨率任务中融合了基于三角形-矩形窗口的局部注意力机制与基于通道的全局注意力机制。通过这一设计,CFAT能够激活更多图像像素上的注意力响应,有效捕捉长距离、多尺度的特征信息,显著提升超分辨率性能。大量实验结果及消融研究验证了CFAT在超分辨率任务中的有效性。与现有先进SR模型相比,所提模型在性能上实现了显著提升,PSNR指标提升达0.7 dB。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-super-resolution-on-set14-4x-upscaling | CFAT | PSNR: 29.30 SSIM: 0.7985 |