4 个月前

音乐理解LLaMA:通过问答和标题生成推进文本到音乐的生成

音乐理解LLaMA:通过问答和标题生成推进文本到音乐的生成

摘要

文本到音乐生成(Text-to-Music Generation, T2M-Gen)面临的主要障碍之一是缺乏大规模公开可用的带有自然语言描述的音乐数据集。为了解决这一问题,我们提出了音乐理解LLaMA(Music Understanding LLaMA, MU-LLaMA),该模型能够回答与音乐相关的问题并为音乐文件生成描述。我们的模型利用了预训练的MERT模型提取的音频表示来提取音乐特征。然而,获取适合训练MU-LLaMA模型的数据集仍然具有挑战性,因为现有的公开可访问的音频问答数据集缺乏开放性音乐问答所需的深度。为了填补这一空白,我们提出了一种从现有音频描述数据集中生成问答对的方法,并引入了专为回答开放性音乐相关问题设计的MusicQA数据集。实验结果表明,基于我们设计的MusicQA数据集训练的MU-LLaMA模型在多种评估指标下均表现出色,在音乐问答和音乐描述生成方面均优于当前最先进的(State-of-the-Art, SOTA)模型,为T2M-Gen研究领域带来了有前景的发展。

代码仓库

shansongliu/M2UGen
jax
GitHub 中提及
crypto-code/mu-llama
官方
pytorch
GitHub 中提及
shansongliu/MU-LLaMA
pytorch
GitHub 中提及

基准测试

基准方法指标
music-question-answering-on-musicqaMU-LLaMA
BERT Score: 0.901
BLEU: 0.306
METEOR: 0.385
ROUGE: 0.466

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音乐理解LLaMA:通过问答和标题生成推进文本到音乐的生成 | 论文 | HyperAI超神经