4 个月前

PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片

PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片

摘要

近期在文本到图像生成领域的进展已经在根据给定的文本提示合成逼真的人类照片方面取得了显著的成果。然而,现有的个性化生成方法无法同时满足高效率、良好的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中,我们介绍了PhotoMaker,一种高效的个性化文本到图像生成方法,该方法主要将任意数量的输入ID图像编码为堆叠ID嵌入以保留ID信息。这种嵌入作为统一的ID表示形式,不仅能够全面封装同一输入ID的特征,还能容纳不同ID的特征以供后续整合。这为更多有趣且实用的应用铺平了道路。此外,为了推动我们的PhotoMaker训练,我们提出了一种面向ID的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的支持下,我们的PhotoMaker展示了比基于测试时间微调的方法更好的ID保留能力,同时提供了显著的速度提升、高质量的生成结果、强大的泛化能力和广泛的应用范围。我们的项目页面可在 https://photo-maker.github.io/ 查看。

代码仓库

基准测试

基准方法指标
diffusion-personalization-tuning-free-onPhotoMaker
Cosine Similarity: 0.287
FID: 8.410
LPIPS: 0.424

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片 | 论文 | HyperAI超神经