4 个月前

直接反转:用三行代码提升基于扩散的编辑方法

直接反转:用三行代码提升基于扩散的编辑方法

摘要

文本引导的扩散模型已经彻底改变了图像生成和编辑领域,提供了卓越的真实感和多样性。特别是在基于扩散的编辑中,根据目标提示对源图像进行编辑时,该过程首先通过扩散模型获取与源图像相对应的噪声潜在向量。随后,该向量被分别输入到源扩散分支和目标扩散分支中进行编辑。这一逆向过程的准确性对最终编辑结果有显著影响,既影响源图像关键内容的保留,也影响根据目标提示进行编辑的保真度。以往的逆向技术试图在源扩散分支和目标扩散分支中找到一个统一的解决方案。然而,我们的理论和实证分析表明,分离这两个分支可以实现关键内容保留和编辑保真度之间的明确分工。基于这一见解,我们提出了一种名为“直接逆向”(Direct Inversion)的新技术,仅需三行代码即可实现两个分支的最佳性能。为了评估图像编辑性能,我们推出了PIE-Bench基准测试集,其中包含700张展示多样场景和编辑类型的图像,并附有丰富的注释和全面的评估指标。与最先进的优化逆向技术相比,我们的解决方案不仅在8种编辑方法中表现出色,还实现了近一个数量级的速度提升。

代码仓库

cure-lab/pnpinversion
pytorch
GitHub 中提及
cure-lab/directinversion
官方
pytorch
GitHub 中提及
thu-cvml/texturediffusion
pytorch
GitHub 中提及

基准测试

基准方法指标
text-based-image-editing-on-pie-benchDirect Inversion+MasaCtrl
Background LPIPS: 87.94
Background PSNR: 22.64
CLIPSIM: 24.38
Structure Distance: 24.70
text-based-image-editing-on-pie-benchDirect Inversion+Pix2Pix-Zero
Background LPIPS: 138.98
Background PSNR: 21.53
CLIPSIM: 23.31
Structure Distance: 49.22
text-based-image-editing-on-pie-benchDirect Inversion+Prompt-to-Prompt
Background LPIPS: 54.55
Background PSNR: 27.22
CLIPSIM: 25.02
Structure Distance: 11.65
text-based-image-editing-on-pie-benchDirect Inversion+Plug-and-Play
Background LPIPS: 106.06
Background PSNR: 22.46
CLIPSIM: 25.41
Structure Distance: 24.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
直接反转:用三行代码提升基于扩散的编辑方法 | 论文 | HyperAI超神经