4 个月前

IP-Adapter:适用于文本的图像提示适配器用于文本到图像扩散模型

IP-Adapter:适用于文本的图像提示适配器用于文本到图像扩散模型

摘要

近年来,大型文本到图像扩散模型在生成高保真图像方面展现出了强大的能力。然而,仅通过文本提示生成所需的图像非常具有挑战性,因为这通常涉及复杂的提示工程。作为文本提示的替代方案,图像提示因其“一图胜千言”的特性而受到关注。尽管现有的直接微调预训练模型的方法效果显著,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控制不兼容。本文提出了一种有效且轻量级的适配器——IP-Adapter,旨在为预训练的文本到图像扩散模型实现图像提示功能。IP-Adapter 的关键设计在于解耦交叉注意力机制,该机制将用于处理文本特征和图像特征的交叉注意力层分开。尽管我们的方法简单,但仅有 2200 万个参数的 IP-Adapter 即可达到与完全微调的图像提示模型相当甚至更好的性能。由于我们冻结了预训练的扩散模型,所提出的 IP-Adapter 不仅可以推广到从同一基础模型微调的其他自定义模型,还可以与现有的可控生成工具结合使用以实现可控生成。得益于解耦交叉注意力策略的优势,图像提示还可以与文本提示协同工作,实现多模态图像生成。项目页面可在以下网址访问:https://ip-adapter.github.io。

代码仓库

liuxiaoyu1104/smartcontrol
pytorch
GitHub 中提及
fhshen2022/prunerepaint
pytorch
GitHub 中提及
tencent-ailab/ip-adapter
pytorch
GitHub 中提及

基准测试

基准方法指标
diffusion-personalization-tuning-free-onIP-Adapter-FaceID (SDXL)
Cosine Similarity: 0.535
FID: 24.105
LPIPS: 0.462
diffusion-personalization-tuning-free-onIP-Adapter-FaceID-PlusV2
Cosine Similarity: 0.572
FID: 10.798
LPIPS: 0.429
diffusion-personalization-tuning-free-onIP-Adapter-FaceID-Plus
Cosine Similarity: 0.600
FID: 11.817
LPIPS: 0.384
personalized-image-generation-on-dreambenchIP-Adapter-Plus ViT-H SDXL v1.0
Concept Preservation (CP): 0.833
Overall (CP * PF): 0.344
Prompt Following (PF): 0.413
personalized-image-generation-on-dreambenchIP-Adapter ViT-G SDXL v1.0
Concept Preservation (CP): 0.593
Overall (CP * PF): 0.380
Prompt Following (PF): 0.640

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
IP-Adapter:适用于文本的图像提示适配器用于文本到图像扩散模型 | 论文 | HyperAI超神经