3 个月前

通过可组合扩散实现任意到任意生成

通过可组合扩散实现任意到任意生成

摘要

我们提出了一种名为可组合扩散模型(Composable Diffusion, CoDi)的新型生成模型,该模型能够从任意输入模态组合生成任意输出模态组合,例如文本、图像、视频或音频。与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,且其输入不限于文本或图像等特定模态子集。尽管许多模态组合在训练数据中并不存在,我们提出在输入空间与输出空间中同时对齐不同模态,从而使得 CoDi 能够自由地基于任意输入组合进行条件生成,并生成任意模态组合,即使这些模态组合未在训练数据中出现。CoDi 采用了一种新颖的可组合生成策略,通过在扩散过程中建立模态间的对齐关系,构建一个共享的多模态空间,从而实现多种交织模态(如时间对齐的视频与音频)的同步生成。该模型高度可定制且灵活,具备出色的联合模态生成质量,在单模态合成任务上,其性能达到或超越当前最优的单模态生成模型。项目主页包含演示视频与开源代码,欢迎访问:https://codi-gen.github.io

代码仓库

基准测试

基准方法指标
audio-generation-on-audiocapsCoDi
FAD: 1.80
FD: 22.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过可组合扩散实现任意到任意生成 | 论文 | HyperAI超神经