LiuHaohe ; YuanYi ; LiuXubo ; MeiXinhao ; KongQiuqiang ; TianQiao ; WangYuping ; WangWenwu ; WangYuxuan ; PlumbleyMark D.

摘要
尽管音频生成在不同类型的音频(如语音、音乐和音效)之间存在共性,但为每种类型设计模型时需要仔细考虑特定的目标和偏差,这些目标和偏差可能与其他类型显著不同。为了使我们更接近统一的音频生成视角,本文提出了一种框架,该框架利用相同的学习方法进行语音、音乐和音效的生成。我们的框架引入了一种通用的音频表示方法,称为“音频语言”(Language of Audio, LOA)。任何音频都可以基于AudioMAE(一种自监督预训练表示学习模型)转换为LOA。在生成过程中,我们通过使用GPT-2模型将任何模态转换为LOA,并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE及潜在扩散模型等优势。在文本到音频、文本到音乐和文本到语音的主要基准测试中的实验表明,该框架在性能上达到了当前最佳或具有竞争力的结果。我们的代码、预训练模型和演示可在https://audioldm.github.io/audioldm2 获取。
代码仓库
haoheliu/AudioLDM2
官方
pytorch
GitHub 中提及
haoheliu/audioldm-training-finetuning
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-generation-on-audiocaps | AudioLDM 2-AC-Large | CLAP_LAION: 0.243 FAD: 1.42 |
| audio-generation-on-audiocaps | AudioLDM2-large | CLAP_LAION: 0.53 CLAP_MS: 0.37 FAD: 2.02 FD: 26.18 FD_openl3: 158.04 IS: 8.55 KL_passt: 1.68 |
| text-to-music-generation-on-musiccaps | AudioLDM 2-Full | FAD: 3.13 KL_passt: 1.20 |
| text-to-music-generation-on-musiccaps | AudioLDM2-music | FD_openl3: 354.05 KL_passt: 1.53 |
| text-to-music-generation-on-musiccaps | AudioLDM2-large | CLAP_LAION: 0.48 CLAP_MS: 0.47 FAD: 2.93 FD: 16.34 FD_openl3: 190.16 IS: 2.59 KL_passt: 1.00 |