HyperAIHyperAI

Command Palette

Search for a command to run...

通过可组合扩散实现任意到任意生成

Zineng Tang Ziyi Yang Chenguang Zhu Michael Zeng Mohit Bansal

摘要

我们提出了一种名为可组合扩散模型(Composable Diffusion, CoDi)的新型生成模型,该模型能够从任意输入模态组合生成任意输出模态组合,例如文本、图像、视频或音频。与现有的生成式人工智能系统不同,CoDi 可以并行生成多种模态,且其输入不限于文本或图像等特定模态子集。尽管许多模态组合在训练数据中并不存在,我们提出在输入空间与输出空间中同时对齐不同模态,从而使得 CoDi 能够自由地基于任意输入组合进行条件生成,并生成任意模态组合,即使这些模态组合未在训练数据中出现。CoDi 采用了一种新颖的可组合生成策略,通过在扩散过程中建立模态间的对齐关系,构建一个共享的多模态空间,从而实现多种交织模态(如时间对齐的视频与音频)的同步生成。该模型高度可定制且灵活,具备出色的联合模态生成质量,在单模态合成任务上,其性能达到或超越当前最优的单模态生成模型。项目主页包含演示视频与开源代码,欢迎访问:https://codi-gen.github.io


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过可组合扩散实现任意到任意生成 | 论文 | HyperAI超神经