4 个月前

DreamBooth:针对主题生成的文本到图像扩散模型微调

DreamBooth:针对主题生成的文本到图像扩散模型微调

摘要

大型文本到图像模型在人工智能的发展中实现了显著的飞跃,使得从给定文本提示生成高质量且多样的图像成为可能。然而,这些模型缺乏模仿给定参考集中主体外观的能力,无法在不同背景下合成这些主体的新颖表现。在这项工作中,我们提出了一种新的“个性化”文本到图像扩散模型的方法。仅需输入几张主体的图像,我们就可以对预训练的文本到图像模型进行微调,使其学会将一个独特的标识符与该特定主体绑定。一旦主体被嵌入到模型的输出域中,这个独特的标识符就可以用于在不同的场景中合成新颖的逼真图像。通过利用模型中嵌入的语义先验,并引入一种新的自生类别特定先验保留损失(autogenous class-specific prior preservation loss),我们的技术能够在参考图像中未出现的各种场景、姿态、视角和光照条件下合成主体。我们将这一技术应用于多个以前难以解决的任务,包括主体重新上下文化、文本引导视图合成和艺术渲染,同时保留主体的关键特征。此外,我们还提供了一个新的数据集和评估协议,以支持这项新的以主体驱动的生成任务。项目页面:https://dreambooth.github.io/

代码仓库

PrototypeNx/DETEX
pytorch
GitHub 中提及
cloneofsimo/lora
pytorch
GitHub 中提及
SnailDev/github-hot-hub
pytorch
GitHub 中提及
csguoh/intlora
pytorch
GitHub 中提及
jiahuadong/cifc
pytorch
GitHub 中提及
showlab/Tune-A-Video
pytorch
GitHub 中提及
yandex-research/dvar
pytorch
GitHub 中提及
zrrskywalker/personalize-sam
pytorch
GitHub 中提及
lonnyzhang423/github-hot-hub
pytorch
GitHub 中提及
google/dreambooth
GitHub 中提及

基准测试

基准方法指标
personalized-image-generation-on-dreambenchDreamBooth SD v1.5
Concept Preservation (CP): 0.494
Overall (CP * PF): 0.356
Prompt Following (PF): 0.721
personalized-image-generation-on-dreambenchDreamBooth LoRA SDXL v1.0
Concept Preservation (CP): 0.598
Overall (CP * PF): 0.517
Prompt Following (PF): 0.865

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
DreamBooth:针对主题生成的文本到图像扩散模型微调 | 论文 | HyperAI超神经