4 个月前

控制多模态联合训练以实现高质量的视频到音频合成

控制多模态联合训练以实现高质量的视频到音频合成

摘要

我们提出了一种基于视频和可选文本条件生成高质量且同步音频的新颖多模态联合训练框架——MMAudio。与仅基于(有限的)视频数据进行单模态训练不同,MMAudio通过更大规模、易于获取的文本-音频数据进行联合训练,以学习生成语义对齐的高质量音频样本。此外,我们通过一个条件同步模块在帧级别上对齐视频条件与音频潜在变量,从而提高了音视频同步性。MMAudio采用流匹配目标进行训练,在音频质量、语义对齐和音视频同步方面达到了现有公开模型中的最佳水平,同时具有较低的推理时间(生成8秒片段仅需1.23秒)和仅有157M参数量。MMAudio在文本到音频生成任务中也表现出令人惊讶的竞争性能,表明联合训练不会妨碍单模态性能。代码和演示可在以下网址获取:https://hkchengrex.github.io/MMAudio

代码仓库

hkchengrex/MMAudio
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-to-sound-generation-on-vgg-soundMMAudio-S-16kHz
FAD: 0.79
FD: 5.22
video-to-sound-generation-on-vgg-soundMMAudio-L-44.1kHz
FAD: 0.97
FD: 4.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
控制多模态联合训练以实现高质量的视频到音频合成 | 论文 | HyperAI超神经