4 个月前

AudioLDM 2:通过自监督预训练学习整体音频生成

AudioLDM 2:通过自监督预训练学习整体音频生成

摘要

尽管音频生成在不同类型的音频(如语音、音乐和音效)之间存在共性,但为每种类型设计模型时需要仔细考虑特定的目标和偏差,这些目标和偏差可能与其他类型显著不同。为了使我们更接近统一的音频生成视角,本文提出了一种框架,该框架利用相同的学习方法进行语音、音乐和音效的生成。我们的框架引入了一种通用的音频表示方法,称为“音频语言”(Language of Audio, LOA)。任何音频都可以基于AudioMAE(一种自监督预训练表示学习模型)转换为LOA。在生成过程中,我们通过使用GPT-2模型将任何模态转换为LOA,并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重用的自监督预训练AudioMAE及潜在扩散模型等优势。在文本到音频、文本到音乐和文本到语音的主要基准测试中的实验表明,该框架在性能上达到了当前最佳或具有竞争力的结果。我们的代码、预训练模型和演示可在https://audioldm.github.io/audioldm2 获取。

代码仓库

haoheliu/AudioLDM2
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-generation-on-audiocapsAudioLDM 2-AC-Large
CLAP_LAION: 0.243
FAD: 1.42
audio-generation-on-audiocapsAudioLDM2-large
CLAP_LAION: 0.53
CLAP_MS: 0.37
FAD: 2.02
FD: 26.18
FD_openl3: 158.04
IS: 8.55
KL_passt: 1.68
text-to-music-generation-on-musiccapsAudioLDM 2-Full
FAD: 3.13
KL_passt: 1.20
text-to-music-generation-on-musiccapsAudioLDM2-music
FD_openl3: 354.05
KL_passt: 1.53
text-to-music-generation-on-musiccapsAudioLDM2-large
CLAP_LAION: 0.48
CLAP_MS: 0.47
FAD: 2.93
FD: 16.34
FD_openl3: 190.16
IS: 2.59
KL_passt: 1.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供