
摘要
计算机能否判断钢琴演奏者的技能水平?评估这一水平时,基于对演奏者表现的视觉分析是否优于听觉判断?由于当前的卷积神经网络(CNN)在处理长视频时存在困难,如何采样较短的片段以最好地反映演奏者的技能水平?在这项研究中,我们收集并发布了首个用于多模态技能评估的数据集,重点关注评估钢琴演奏者的技能水平,回答了上述问题,并启动了自动评估钢琴演奏技能的研究工作,为未来的研究提供了基线。数据集可从以下链接获取:https://github.com/ParitoshParmar/Piano-Skills-Assessment。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-multimodal-pisa | Audio | Accuracy (%): 64.50 |
| skills-assessment-on-multimodal-pisa | MMDL | Accuracy (%): 74.60 |
| video-classification-on-multimodal-pisa | Video | Accuracy (%): 73.95 |