CopetJade ; KreukFelix ; GatItai ; RemezTal ; KantDavid ; SynnaeveGabriel ; AdiYossi ; DéfossezAlexandre

摘要
我们致力于解决条件音乐生成的任务。为此,我们引入了MusicGen,这是一种单一语言模型(LM),能够在多个压缩离散音乐表示流(即,标记)上运行。与以往的研究不同,MusicGen由一个单阶段的变压器语言模型和高效的标记交错模式组成,从而消除了需要级联多个模型的需求,例如分层或上采样。通过这种方法,我们展示了MusicGen在基于文本描述或旋律特征的条件下,能够生成高质量的单声道和立体声音频样本,从而对生成的输出实现更好的控制。我们进行了广泛的实证评估,包括自动评估和人工研究,结果表明所提出的方法在标准的文本到音乐基准测试中优于已评估的基线方法。通过消融研究,我们阐明了构成MusicGen的各个组件的重要性。MusicGen的音频样本、代码和模型可在https://github.com/facebookresearch/audiocraft 获取。
代码仓库
whisperspeech/whisperspeech
pytorch
GitHub 中提及
collabora/whisperspeech
pytorch
GitHub 中提及
pwc-1/Paper-5/tree/main/musicgen
mindspore
facebookresearch/audiocraft
pytorch
atharva20038/music4all
jax
GitHub 中提及
theodorblackbird/lina-speech
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-music-generation-on-musiccaps | MusicGen w/ random melody (1.5B) | FAD: 5.0 KL_passt: 1.31 |
| text-to-music-generation-on-musiccaps | MusicGen w/o melody (3.3B) | FAD: 3.8 FD_openl3: 197.12 KL_passt: 1.31 |
| text-to-music-generation-on-musiccaps | MusicGen w/o melody (1.5B) | FAD: 3.4 KL_passt: 1.23 |