8 个月前

计算机视觉

计算机视觉

Nataniel Ruiz Yuzheng Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman

摘要

大型文本到图像模型在人工智能的发展中实现了显著的飞跃，使得从给定文本提示生成高质量且多样的图像成为可能。然而，这些模型缺乏模仿给定参考集中主体外观的能力，无法在不同背景下合成这些主体的新颖表现。在这项工作中，我们提出了一种新的“个性化”文本到图像扩散模型的方法。仅需输入几张主体的图像，我们就可以对预训练的文本到图像模型进行微调，使其学会将一个独特的标识符与该特定主体绑定。一旦主体被嵌入到模型的输出域中，这个独特的标识符就可以用于在不同的场景中合成新颖的逼真图像。通过利用模型中嵌入的语义先验，并引入一种新的自生类别特定先验保留损失（autogenous class-specific prior preservation loss），我们的技术能够在参考图像中未出现的各种场景、姿态、视角和光照条件下合成主体。我们将这一技术应用于多个以前难以解决的任务，包括主体重新上下文化、文本引导视图合成和艺术渲染，同时保留主体的关键特征。此外，我们还提供了一个新的数据集和评估协议，以支持这项新的以主体驱动的生成任务。项目页面：https://dreambooth.github.io/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Nataniel Ruiz Yuzheng Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman

摘要

大型文本到图像模型在人工智能的发展中实现了显著的飞跃，使得从给定文本提示生成高质量且多样的图像成为可能。然而，这些模型缺乏模仿给定参考集中主体外观的能力，无法在不同背景下合成这些主体的新颖表现。在这项工作中，我们提出了一种新的“个性化”文本到图像扩散模型的方法。仅需输入几张主体的图像，我们就可以对预训练的文本到图像模型进行微调，使其学会将一个独特的标识符与该特定主体绑定。一旦主体被嵌入到模型的输出域中，这个独特的标识符就可以用于在不同的场景中合成新颖的逼真图像。通过利用模型中嵌入的语义先验，并引入一种新的自生类别特定先验保留损失（autogenous class-specific prior preservation loss），我们的技术能够在参考图像中未出现的各种场景、姿态、视角和光照条件下合成主体。我们将这一技术应用于多个以前难以解决的任务，包括主体重新上下文化、文本引导视图合成和艺术渲染，同时保留主体的关键特征。此外，我们还提供了一个新的数据集和评估协议，以支持这项新的以主体驱动的生成任务。项目页面：https://dreambooth.github.io/

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

DreamBooth：针对主题生成的文本到图像扩散模型微调 | 论文 | HyperAI超神经