4 个月前

StyleDiffusion: 基于提示嵌入反转的文本编辑方法

StyleDiffusion: 基于提示嵌入反转的文本编辑方法

摘要

当前的研究重点在于利用预训练扩散模型的惊人能力进行图像编辑。这些方法要么对模型进行微调,要么在预训练模型的潜在空间中反演图像。然而,它们存在两个主要问题:(1)选定区域的编辑结果不尽如人意,且非选定区域会出现意外变化;(2)需要仔细编辑文本提示,其中提示应包含输入图像中的所有视觉对象。为了解决这些问题,我们提出了两项改进措施:(1)仅优化交叉注意力层中值线性网络的输入就足以重建真实图像;(2)我们提出了一种注意力正则化方法,以在重建和编辑后保留对象级别的注意力图,从而实现精确的风格编辑而不引起显著的结构变化。此外,我们还改进了用于无条件分支的分类器自由引导中的编辑技术,如P2P所使用的。我们在多种图像上进行了广泛的实验提示编辑,并从定性和定量两方面证明了我们的方法相比现有和同期工作具有更优越的编辑能力。请参阅我们在Stylediffusion项目中提供的配套代码:\url{https://github.com/sen-mao/StyleDiffusion}。

代码仓库

sen-mao/StyleDiffusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-based-image-editing-on-pie-benchStyleDiffusion+Prompt-to-Prompt
Background LPIPS: 66.10
Background PSNR: 26.05
CLIPSIM: 24.78
Structure Distance: 11.65

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
StyleDiffusion: 基于提示嵌入反转的文本编辑方法 | 论文 | HyperAI超神经