4 个月前

零样本图像到图像翻译

零样本图像到图像翻译

摘要

大规模文本到图像生成模型展示了其合成多样且高质量图像的卓越能力。然而,直接将这些模型应用于真实图像编辑仍面临两大挑战。首先,用户很难构思出一个完美的文本提示,以精确描述输入图像中的每一个视觉细节。其次,尽管现有模型能够在某些区域引入期望的变化,但它们通常会大幅改变输入内容,并在不需要修改的区域引入意外变化。在本研究中,我们提出了一种名为 pix2pix-zero 的图像到图像翻译方法,该方法无需手动提示即可保留原始图像的内容。我们首先自动发现反映所需编辑方向的文本嵌入空间。为了在编辑后保留整体内容结构,我们进一步提出了交叉注意力引导(cross-attention guidance),旨在在整个扩散过程中保持输入图像的交叉注意力图。此外,我们的方法无需为这些编辑进行额外训练,可以直接使用现有的预训练文本到图像扩散模型。我们进行了广泛的实验,并证明了该方法在真实和合成图像编辑方面均优于现有的和同期的研究成果。

代码仓库

pix2pixzero/pix2pix-zero
官方
pytorch
GitHub 中提及
hansam95/nmg
pytorch
GitHub 中提及

基准测试

基准方法指标
text-based-image-editing-on-pie-benchDDIM Inversion+Pix2Pix-Zero
Background LPIPS: 172.22
Background PSNR: 20.44
CLIPSIM: 22.80
Structure Distance: 61.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
零样本图像到图像翻译 | 论文 | HyperAI超神经