4 个月前

YourMT3+: 增强型Transformer架构与跨数据集音轨增强的多乐器音乐转录

YourMT3+: 增强型Transformer架构与跨数据集音轨增强的多乐器音乐转录

摘要

多乐器音乐转录旨在将复调音乐录音转换为分配给每个乐器的乐谱。这一任务对模型来说具有挑战性,因为它需要同时识别多种乐器并转录其音高和精确时值,而缺乏完全注释的数据则进一步增加了训练难度。本文介绍了YourMT3+,这是一套基于最近的MT3语言标记解码方法的增强型多乐器音乐转录模型。我们通过在时频域中采用分层注意力变换器并整合专家混合来增强其编码器。为了应对数据限制问题,我们引入了一种新的多通道解码方法,用于处理不完整注释的训练,并提出了内部和跨声部增强方法以实现数据集混用。我们的实验展示了直接人声转录的能力,消除了对语音分离预处理器的需求。在十个公开数据集上的基准测试表明,我们的模型在现有转录模型中具有竞争力甚至优于它们。进一步对流行音乐录音的测试突显了当前模型的局限性。可完全复现的代码和数据集可在\url{https://github.com/mimbres/YourMT3}上获取,并附有演示。注:由于原文中的“\url{https://github.com/mimbres/YourMT3}”是一个URL链接,在正式出版物中通常会保留原样或使用脚注形式表示。此处直接保留了URL链接以保持信息完整性。

代码仓库

mimbres/yourmt3
官方
GitHub 中提及

基准测试

基准方法指标
multi-instrument-music-transcription-onYourMT3+ (YPTF.MoE+M)
Multi F1: 74.84
multi-instrument-music-transcription-onMT3 (colab)
Multi F1: 57.69
multi-instrument-music-transcription-onMT3
Multi F1: 62
multi-instrument-music-transcription-on-urmpMT3
Multi F1: 59
multi-instrument-music-transcription-on-urmpYourMT3+ (YPTF.MoE+M)
Multi F1: 67.98
music-transcription-on-maestroYourMT3+ (YPTF.MoE+M) noPS
Onset F1: 96.98
music-transcription-on-maestroYourMT3+ (YPTF.MoE+M)
Onset F1: 96.52
music-transcription-on-mapsYourMT3+ (YPTF.MoE+M, unseen) noPS
Onset F1: 88.73
music-transcription-on-mapsYourMT3+ (YPTF+S, unseen)
Onset F1: 88.37
music-transcription-on-slakh2100MT3 (colab)
Onset F1: 75.2
note-level F-measure-no-offset (Fno): 0.752
music-transcription-on-slakh2100YourMT3+ (YPTF.MoE+M)
Onset F1: 84.56
note-level F-measure-no-offset (Fno): 0.8456
music-transcription-on-slakh2100PerceiverTF
Onset F1: 81.9
note-level F-measure-no-offset (Fno): 0.819
music-transcription-on-urmpMT3
Onset F1: 77
music-transcription-on-urmpYourMT3+ (YPTF.MoE+M)
Onset F1: 81.79

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
YourMT3+: 增强型Transformer架构与跨数据集音轨增强的多乐器音乐转录 | 论文 | HyperAI超神经