3 个月前

面向高保真图像补全的全局上下文交互融合

面向高保真图像补全的全局上下文交互融合

摘要

正确建模全局上下文交互对于大掩码下的高保真图像修复至关重要。以往通过深度网络或大感受野(Receptive Field, RF)卷积实现该目标的方法,难以摆脱邻近区域交互的主导影响,可能导致性能受限。本文提出将图像修复任务视为一种无方向性的序列到序列预测问题,并引入Transformer架构以在编码器中直接捕捉长程依赖关系。关键在于,我们采用一种感受野小且非重叠的约束性CNN来生成加权的图像标记表示,使Transformer能够在所有网络层中均等且显式地建模远距离可见上下文之间的关系,而不会因使用较大感受野而导致邻近标记的隐式混淆。为进一步提升可见区域与生成区域之间的外观一致性,本文提出一种新颖的注意力感知层(Attention-Aware Layer, AAL),以更有效地利用远距离相关高频特征。大量实验结果表明,所提方法在多个数据集上均显著优于现有最先进方法。

代码仓库

lyndonzheng/TFill
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-inpainting-on-ffhq-512-x-512TFill
FID: 3.50
image-inpainting-on-places2-1TFill (20-50% free-form)
FID: 22.13
image-inpainting-on-places2-valTFill (20-30% free form)
FID: 15.2
PD: 87.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向高保真图像补全的全局上下文交互融合 | 论文 | HyperAI超神经