
摘要
基于变压器模型在自然语言处理(NLP)领域的巨大成功,已有多方尝试将其架构应用于其他领域,如视觉和音频。近期的研究表明,变压器模型在视觉和音频任务上的表现可以超越卷积神经网络(CNN)。然而,与已经成熟的CNN相比,变压器模型的主要缺点之一是计算复杂度较高。在变压器模型中,计算和内存复杂度随输入长度呈二次增长。因此,针对变压器模型的优化工作十分广泛,但往往以牺牲预测性能为代价。在本研究中,我们提出了一种新颖的方法来优化和正则化用于音频频谱图的变压器模型。所提出的模型在Audioset数据集上达到了新的最先进水平,并且可以在单个消费级GPU上进行训练。此外,我们还提出了一种在性能和训练速度方面均优于CNN的变压器模型。源代码:https://github.com/kkoutini/PaSST
代码仓库
kkoutini/passt
官方
pytorch
GitHub 中提及
kkoutini/passt_hear21
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | PaSST-S (Single) | Test mAP: 0.471 |
| audio-classification-on-audioset | PaSST (Ensemble) | Test mAP: 0.496 |
| audio-classification-on-fsd50k | PaSST-N-S | mAP: 64.2 |
| audio-classification-on-fsd50k | PaSST-S | mAP: 65.55 |
| audio-tagging-on-audioset | PaSST | mean average precision: 0.496 |
| instrument-recognition-on-openmic-2018 | PaSST | mean average precision: 0.843 |