6 个月前

摘要

近年来，基于数据驱动的图像修复（image inpainting）方法取得了令人瞩目的进展，显著推动了物体移除、受损图像修复等基础图像编辑任务的发展。与传统方法相比，这些方法在修复效果上更具优势，但由于内存限制，通常只能处理分辨率较低的输入图像，普遍小于1K。然而，当前移动设备拍摄的图像分辨率已提升至8K。若对低分辨率修复结果进行简单的上采样，仅能得到一个尺寸大但模糊的结果。而通过在模糊的大图像上叠加高频残差（high-frequency residual）图像，则可生成细节丰富、纹理清晰的高质量修复结果。受此启发，我们提出了一种上下文残差聚合（Contextual Residual Aggregation, CRA）机制。该机制通过加权聚合来自上下文区域补丁的残差信息，自动生成缺失内容的高频残差，从而仅需网络输出低分辨率的修复结果即可完成高质量重建。由于神经网络中的卷积层仅需在低分辨率输入与输出上运行，因此显著降低了内存占用与计算开销。此外，该方法也缓解了对高分辨率训练数据集的依赖。在实验中，我们仅在512×512的小尺寸图像上训练模型，并在高分辨率图像上进行推理，仍取得了极具竞争力的修复效果。所提模型可成功处理高达8K分辨率、且包含较大缺失区域的图像修复任务，这一能力在以往基于学习的方法中难以实现。此外，我们进一步优化了网络架构设计，实现了轻量化结构，在GTX 1080 Ti GPU上即可实现2K图像的实时推理性能。相关代码已开源，地址为：Atlas200dk/sample-imageinpainting-HiFill。

源 PDF