HyperAIHyperAI

Command Palette

Search for a command to run...

控制多模态联合训练以实现高质量的视频到音频合成

Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alexander Schwing Yuki Mitsufuji

摘要

我们提出了一种基于视频和可选文本条件生成高质量且同步音频的新颖多模态联合训练框架——MMAudio。与仅基于(有限的)视频数据进行单模态训练不同,MMAudio通过更大规模、易于获取的文本-音频数据进行联合训练,以学习生成语义对齐的高质量音频样本。此外,我们通过一个条件同步模块在帧级别上对齐视频条件与音频潜在变量,从而提高了音视频同步性。MMAudio采用流匹配目标进行训练,在音频质量、语义对齐和音视频同步方面达到了现有公开模型中的最佳水平,同时具有较低的推理时间(生成8秒片段仅需1.23秒)和仅有157M参数量。MMAudio在文本到音频生成任务中也表现出令人惊讶的竞争性能,表明联合训练不会妨碍单模态性能。代码和演示可在以下网址获取:https://hkchengrex.github.io/MMAudio


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
控制多模态联合训练以实现高质量的视频到音频合成 | 论文 | HyperAI超神经