4 个月前

BLIP-Diffusion:可控文本到图像生成和编辑的预训练主题表示

BLIP-Diffusion:可控文本到图像生成和编辑的预训练主题表示

摘要

基于主题的文本到图像生成模型根据文本提示创建输入主题的新颖表现形式。现有的模型存在细调时间长和难以保持主题保真度的问题。为了解决这些限制,我们引入了BLIP-Diffusion,这是一种新的基于主题的图像生成模型,支持多模态控制,可以接受主题图像和文本提示作为输入。与其他基于主题的生成模型不同,BLIP-Diffusion引入了一个新的多模态编码器,该编码器经过预训练以提供主题表示。首先,我们按照BLIP-2的方法对多模态编码器进行预训练,以生成与文本对齐的视觉表示。然后,我们设计了一个主题表示学习任务,使扩散模型能够利用这种视觉表示并生成新的主题表现形式。与DreamBooth等先前方法相比,我们的模型实现了零样本的主题驱动生成,并且在定制化主题的高效细调方面可实现高达20倍的速度提升。我们还展示了BLIP-Diffusion可以灵活地与现有技术(如ControlNet和prompt-to-prompt)结合使用,以实现新颖的主题驱动生成和编辑应用。代码和模型将在https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion发布。项目页面位于https://dxli94.github.io/BLIP-Diffusion-website/。

代码仓库

salesforce/lavis
官方
pytorch

基准测试

基准方法指标
personalized-image-generation-on-dreambenchBLIP-Diffusion SD v1.5
Concept Preservation (CP): 0.547
Overall (CP * PF): 0.271
Prompt Following (PF): 0.495

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BLIP-Diffusion:可控文本到图像生成和编辑的预训练主题表示 | 论文 | HyperAI超神经