4 个月前

简单且可控的音乐生成

简单且可控的音乐生成

摘要

我们致力于解决条件音乐生成的任务。为此,我们引入了MusicGen,这是一种单一语言模型(LM),能够在多个压缩离散音乐表示流(即,标记)上运行。与以往的研究不同,MusicGen由一个单阶段的变压器语言模型和高效的标记交错模式组成,从而消除了需要级联多个模型的需求,例如分层或上采样。通过这种方法,我们展示了MusicGen在基于文本描述或旋律特征的条件下,能够生成高质量的单声道和立体声音频样本,从而对生成的输出实现更好的控制。我们进行了广泛的实证评估,包括自动评估和人工研究,结果表明所提出的方法在标准的文本到音乐基准测试中优于已评估的基线方法。通过消融研究,我们阐明了构成MusicGen的各个组件的重要性。MusicGen的音频样本、代码和模型可在https://github.com/facebookresearch/audiocraft 获取。

基准测试

基准方法指标
text-to-music-generation-on-musiccapsMusicGen w/ random melody (1.5B)
FAD: 5.0
KL_passt: 1.31
text-to-music-generation-on-musiccapsMusicGen w/o melody (3.3B)
FAD: 3.8
FD_openl3: 197.12
KL_passt: 1.31
text-to-music-generation-on-musiccapsMusicGen w/o melody (1.5B)
FAD: 3.4
KL_passt: 1.23

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
简单且可控的音乐生成 | 论文 | HyperAI超神经