4 个月前

使用非层次化变压器对自动钢琴转录的时间间隔进行评分

使用非层次化变压器对自动钢琴转录的时间间隔进行评分

摘要

神经半马尔可夫条件随机场(semi-CRF)框架在基于事件的钢琴转录中展现出巨大潜力。在此框架下,所有事件(音符或踏板)均表示为与特定事件类型相关联的闭时间区间。神经半马尔可夫条件随机场方法需要一个区间评分矩阵,该矩阵为每个候选区间分配一个评分。然而,设计一种高效且表达力强的区间评分架构并非易事。本文介绍了一种使用类似于变压器中注意力评分机制的比例内积操作来对区间进行评分的简单方法。理论上,由于编码非重叠区间的特殊结构,在温和条件下,内积操作足以表达一个理想的评分矩阵,从而获得正确的转录结果。随后,我们展示了仅使用编码器的结构化非层次变压器主干网络,在低时间分辨率特征图上运行时,能够以高精度和时间精确度转录钢琴音符和踏板。实验表明,我们的方法在Maestro数据集的所有子任务中均取得了最新的最佳性能,F1分数显著提升。

代码仓库

yujia-yan/skipping-the-frame-level
pytorch
GitHub 中提及
yujia-yan/transkun
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
music-transcription-on-maestroTranskun V2 (SemiCRF)
Onset F1: 98.32
music-transcription-on-mapsTranskun V2 (SemiCRF)
Onset F1: 86.1
music-transcription-on-mapsTranskun V2 (SemiCRF) with Data Augmentation
Onset F1: 90.38
music-transcription-on-smd-pianoTranskun V2 (SemiCRF) with Data Augmentation
Onset F1: 98.71

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用非层次化变压器对自动钢琴转录的时间间隔进行评分 | 论文 | HyperAI超神经