3 个月前

编码化音频语言建模为音乐信息检索学习到有用的表示

编码化音频语言建模为音乐信息检索学习到有用的表示

摘要

我们证明了在编码化(离散编码)音乐音频上进行预训练的语言模型,能够学习到对下游音乐信息检索(MIR)任务具有实用价值的表征。具体而言,我们研究了Jukebox(Dhariwal等,2020)所生成的表征:这是一个音乐生成系统,其语言模型在来自100万首歌曲的编码音频上进行了训练。为检验Jukebox的表征是否包含对MIR任务有用的信息,我们将其作为输入特征,用于训练多个MIR任务的浅层模型。与传统MIR模型所使用的、基于标签(tagging)预训练的表征相比,实验结果表明,在四项MIR任务——标签预测、流派分类、情感识别和调性检测——上,使用Jukebox表征作为输入特征的模型平均性能提升了30%。特别是在调性检测任务中,Jukebox的表征显著优于基于标签预训练模型的表征,这表明通过编码化音频的语言建模方式进行预训练,可能弥补了传统方法中存在的盲区。我们将其归因于:与基于标签建模相比,直接对音频进行建模能够为MIR任务提供更丰富、更具表征能力的特征。

代码仓库

p-lambda/jukemir
官方
GitHub 中提及

基准测试

基准方法指标
emotion-recognition-on-emomusicJukebox (Pre-training: CALM)
EmoA: 72.1
EmoV: 61.7
emotion-recognition-on-emomusicCLMR (Pre-training: contrastive)
EmoA: 67.8
EmoV: 45.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
编码化音频语言建模为音乐信息检索学习到有用的表示 | 论文 | HyperAI超神经