
摘要
多乐器音乐转录旨在将复调音乐录音转换为分配给每个乐器的乐谱。这一任务对模型来说具有挑战性,因为它需要同时识别多种乐器并转录其音高和精确时值,而缺乏完全注释的数据则进一步增加了训练难度。本文介绍了YourMT3+,这是一套基于最近的MT3语言标记解码方法的增强型多乐器音乐转录模型。我们通过在时频域中采用分层注意力变换器并整合专家混合来增强其编码器。为了应对数据限制问题,我们引入了一种新的多通道解码方法,用于处理不完整注释的训练,并提出了内部和跨声部增强方法以实现数据集混用。我们的实验展示了直接人声转录的能力,消除了对语音分离预处理器的需求。在十个公开数据集上的基准测试表明,我们的模型在现有转录模型中具有竞争力甚至优于它们。进一步对流行音乐录音的测试突显了当前模型的局限性。可完全复现的代码和数据集可在\url{https://github.com/mimbres/YourMT3}上获取,并附有演示。注:由于原文中的“\url{https://github.com/mimbres/YourMT3}”是一个URL链接,在正式出版物中通常会保留原样或使用脚注形式表示。此处直接保留了URL链接以保持信息完整性。
代码仓库
mimbres/yourmt3
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-instrument-music-transcription-on | YourMT3+ (YPTF.MoE+M) | Multi F1: 74.84 |
| multi-instrument-music-transcription-on | MT3 (colab) | Multi F1: 57.69 |
| multi-instrument-music-transcription-on | MT3 | Multi F1: 62 |
| multi-instrument-music-transcription-on-urmp | MT3 | Multi F1: 59 |
| multi-instrument-music-transcription-on-urmp | YourMT3+ (YPTF.MoE+M) | Multi F1: 67.98 |
| music-transcription-on-maestro | YourMT3+ (YPTF.MoE+M) noPS | Onset F1: 96.98 |
| music-transcription-on-maestro | YourMT3+ (YPTF.MoE+M) | Onset F1: 96.52 |
| music-transcription-on-maps | YourMT3+ (YPTF.MoE+M, unseen) noPS | Onset F1: 88.73 |
| music-transcription-on-maps | YourMT3+ (YPTF+S, unseen) | Onset F1: 88.37 |
| music-transcription-on-slakh2100 | MT3 (colab) | Onset F1: 75.2 note-level F-measure-no-offset (Fno): 0.752 |
| music-transcription-on-slakh2100 | YourMT3+ (YPTF.MoE+M) | Onset F1: 84.56 note-level F-measure-no-offset (Fno): 0.8456 |
| music-transcription-on-slakh2100 | PerceiverTF | Onset F1: 81.9 note-level F-measure-no-offset (Fno): 0.819 |
| music-transcription-on-urmp | MT3 | Onset F1: 77 |
| music-transcription-on-urmp | YourMT3+ (YPTF.MoE+M) | Onset F1: 81.79 |