
摘要
文本到音乐生成(Text-to-Music Generation, T2M-Gen)面临的主要障碍之一是缺乏大规模公开可用的带有自然语言描述的音乐数据集。为了解决这一问题,我们提出了音乐理解LLaMA(Music Understanding LLaMA, MU-LLaMA),该模型能够回答与音乐相关的问题并为音乐文件生成描述。我们的模型利用了预训练的MERT模型提取的音频表示来提取音乐特征。然而,获取适合训练MU-LLaMA模型的数据集仍然具有挑战性,因为现有的公开可访问的音频问答数据集缺乏开放性音乐问答所需的深度。为了填补这一空白,我们提出了一种从现有音频描述数据集中生成问答对的方法,并引入了专为回答开放性音乐相关问题设计的MusicQA数据集。实验结果表明,基于我们设计的MusicQA数据集训练的MU-LLaMA模型在多种评估指标下均表现出色,在音乐问答和音乐描述生成方面均优于当前最先进的(State-of-the-Art, SOTA)模型,为T2M-Gen研究领域带来了有前景的发展。
代码仓库
shansongliu/M2UGen
jax
GitHub 中提及
crypto-code/mu-llama
官方
pytorch
GitHub 中提及
shansongliu/MU-LLaMA
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| music-question-answering-on-musicqa | MU-LLaMA | BERT Score: 0.901 BLEU: 0.306 METEOR: 0.385 ROUGE: 0.466 |