4 个月前

联合与征服:使用扩散模型的即插即用多模态合成

联合与征服:使用扩散模型的即插即用多模态合成

摘要

生成满足多个约束条件的照片在内容创作行业中具有广泛的应用。实现这一任务的关键障碍在于需要包含所有模态(即,约束条件)及其相应输出的配对数据。此外,现有的方法在引入新条件时需要使用跨所有模态的配对数据重新训练。本文提出了一种基于去噪扩散概率模型(DDPMs)的解决方案。我们选择扩散模型而非其他生成模型的原因在于其灵活的内部结构。由于DDPM中的每个采样步骤都遵循高斯分布,我们证明了在给定多种约束条件下生成图像存在闭式解。我们的方法可以将多个训练于不同子任务的扩散模型统一起来,并通过我们提出的采样策略克服组合任务。我们还引入了一个新的可靠性参数,该参数允许在采样过程中单独使用各种现成的扩散模型,这些模型是在不同的数据集上训练的,以引导生成结果满足多个约束条件。我们在各种标准多模态任务上进行了实验,以展示我们方法的有效性。更多细节请参见:https://nithin-gk.github.io/projectpages/Multidiff/index.html

代码仓库

Nithin-GK/UniteandConquer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
face-sketch-synthesis-on-multi-modal-celebaDiffusion
FID: 26.09
multimodal-generation-on-multi-modal-celebaDiffusion
FID: 26.09
text-to-image-generation-on-multi-modalUnite and Conquer
FID: 26.09
LPIPS: 0.519

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
联合与征服:使用扩散模型的即插即用多模态合成 | 论文 | HyperAI超神经