3 个月前

通过可组合扩散实现任意到任意生成

Zineng Tang Ziyi Yang Chenguang Zhu Michael Zeng Mohit Bansal

摘要

我们提出了一种名为可组合扩散模型（Composable Diffusion, CoDi）的新型生成模型，该模型能够从任意输入模态组合生成任意输出模态组合，例如文本、图像、视频或音频。与现有的生成式人工智能系统不同，CoDi 可以并行生成多种模态，且其输入不限于文本或图像等特定模态子集。尽管许多模态组合在训练数据中并不存在，我们提出在输入空间与输出空间中同时对齐不同模态，从而使得 CoDi 能够自由地基于任意输入组合进行条件生成，并生成任意模态组合，即使这些模态组合未在训练数据中出现。CoDi 采用了一种新颖的可组合生成策略，通过在扩散过程中建立模态间的对齐关系，构建一个共享的多模态空间，从而实现多种交织模态（如时间对齐的视频与音频）的同步生成。该模型高度可定制且灵活，具备出色的联合模态生成质量，在单模态合成任务上，其性能达到或超越当前最优的单模态生成模型。项目主页包含演示视频与开源代码，欢迎访问：https://codi-gen.github.io

代码仓库

see2sound/see2sound

jax

GitHub 中提及

microsoft/i-Code/tree/main/i-Code-V3

官方

jax

基准测试

基准	方法	指标
audio-generation-on-audiocaps	CoDi	FAD: 1.80 FD: 22.90

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供