4 个月前

音频嵌入作为音乐分类的教师模型

音频嵌入作为音乐分类的教师模型

摘要

音乐分类一直是音乐信息检索领域的热门任务之一。随着深度学习模型的发展,过去十年在各种分类任务中取得了显著的进步。然而,模型复杂性的不断增加使得训练和推理过程在计算上变得非常昂贵。本文结合了迁移学习和基于特征的知识蒸馏的思想,系统地研究了使用预训练音频嵌入作为教师来指导低复杂度学生网络的训练。通过利用预训练嵌入对学生的特征空间进行正则化,可以将教师嵌入中的知识转移到学生网络中。我们使用了多种预训练音频嵌入,并测试了该方法在乐器分类和音乐自动标注任务中的有效性。结果显示,与未使用教师知识的相同模型相比,我们的方法显著提高了结果。此外,该技术还可以与经典的知识蒸馏方法结合,进一步提升模型性能。

代码仓库

基准测试

基准方法指标
instrument-recognition-on-openmic-2018EAsT-KD + PaSST
mean average precision: .852
instrument-recognition-on-openmic-2018EAsT-Final + PaSST
mean average precision: .847
music-auto-tagging-on-magnatagatune-cleanEAsT-Final + PaSST
PR-AUC: 45.9
ROC-AUC: 91.2
music-auto-tagging-on-magnatagatune-cleanEAsT-KD + PaSST
PR-AUC: 46.1
ROC-AUC: 91.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音频嵌入作为音乐分类的教师模型 | 论文 | HyperAI超神经