4 个月前

无需反转的自然语言图像编辑

无需反转的自然语言图像编辑

摘要

尽管基于逆向的编辑技术取得了近期进展,但扩散模型在文本引导的图像操作方面仍面临挑战。主要瓶颈包括:1)逆向过程耗时较长;2)难以平衡一致性与准确性;3)与一致性模型中使用的高效一致性采样方法兼容性不足。为了解决上述问题,我们首先思考是否可以在编辑过程中消除逆向步骤。研究表明,当初始样本已知时,特定的方差调度可以将去噪步骤简化为多步一致性采样的形式。我们将这种方法命名为去噪扩散一致性模型(Denoising Diffusion Consistent Model, DDCM),并指出它意味着一种虚拟逆向策略,而无需在采样过程中进行显式的逆向操作。我们进一步在一个无调优框架内统一了注意力控制机制,以实现文本引导的编辑。结合这些技术,我们提出了无逆向编辑(Inversion-free Editing, InfEdit),该方法能够在保持图像完整性和避免显式逆向的同时,实现刚性和非刚性语义变化的一致且忠实的编辑,满足复杂的修改需求。通过广泛的实验验证,InfEdit 在各种编辑任务中表现出色,并且保持了无缝的工作流程(单个A40 GPU上处理时间少于3秒),展示了其在实时应用中的潜力。项目页面:https://sled-group.github.io/InfEdit/

代码仓库

sled-group/InfEdit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-based-image-editing-on-pie-benchVirtual Inversion+Prompt-to-Prompt+LCM
Background LPIPS: 55.85
Background PSNR: 26.64
CLIPSIM: 24.57
Structure Distance: 15.61
text-based-image-editing-on-pie-benchVirtual Inversion+Prompt-to-Prompt
Background LPIPS: 47.98
Background PSNR: 27.52
CLIPSIM: 24.89
Structure Distance: 14.22
text-based-image-editing-on-pie-benchVirtual Inversion+Unified Attention Control+LCM
Background LPIPS: 47.58
Background PSNR: 28.51
CLIPSIM: 25.03
Structure Distance: 13.78

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无需反转的自然语言图像编辑 | 论文 | HyperAI超神经