
摘要
文本引导的扩散模型已经彻底改变了图像生成和编辑领域,提供了卓越的真实感和多样性。特别是在基于扩散的编辑中,根据目标提示对源图像进行编辑时,该过程首先通过扩散模型获取与源图像相对应的噪声潜在向量。随后,该向量被分别输入到源扩散分支和目标扩散分支中进行编辑。这一逆向过程的准确性对最终编辑结果有显著影响,既影响源图像关键内容的保留,也影响根据目标提示进行编辑的保真度。以往的逆向技术试图在源扩散分支和目标扩散分支中找到一个统一的解决方案。然而,我们的理论和实证分析表明,分离这两个分支可以实现关键内容保留和编辑保真度之间的明确分工。基于这一见解,我们提出了一种名为“直接逆向”(Direct Inversion)的新技术,仅需三行代码即可实现两个分支的最佳性能。为了评估图像编辑性能,我们推出了PIE-Bench基准测试集,其中包含700张展示多样场景和编辑类型的图像,并附有丰富的注释和全面的评估指标。与最先进的优化逆向技术相比,我们的解决方案不仅在8种编辑方法中表现出色,还实现了近一个数量级的速度提升。
代码仓库
cure-lab/pnpinversion
pytorch
GitHub 中提及
cure-lab/directinversion
官方
pytorch
GitHub 中提及
thu-cvml/texturediffusion
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-based-image-editing-on-pie-bench | Direct Inversion+MasaCtrl | Background LPIPS: 87.94 Background PSNR: 22.64 CLIPSIM: 24.38 Structure Distance: 24.70 |
| text-based-image-editing-on-pie-bench | Direct Inversion+Pix2Pix-Zero | Background LPIPS: 138.98 Background PSNR: 21.53 CLIPSIM: 23.31 Structure Distance: 49.22 |
| text-based-image-editing-on-pie-bench | Direct Inversion+Prompt-to-Prompt | Background LPIPS: 54.55 Background PSNR: 27.22 CLIPSIM: 25.02 Structure Distance: 11.65 |
| text-based-image-editing-on-pie-bench | Direct Inversion+Plug-and-Play | Background LPIPS: 106.06 Background PSNR: 22.46 CLIPSIM: 25.41 Structure Distance: 24.29 |