
摘要
在过去十年中,卷积神经网络(CNNs)已被广泛用作端到端音频分类模型的核心构建模块,这类模型旨在从音频频谱图直接学习映射到对应标签的表示。为更好地捕捉长距离的全局上下文信息,近年来一种趋势是在CNN的基础上引入自注意力机制,形成CNN-注意力混合模型。然而,目前尚不明确CNN的依赖是否必要,以及仅基于注意力机制的神经网络是否足以在音频分类任务中取得优异性能。本文通过提出Audio Spectrogram Transformer(AST)——首个完全无需卷积、纯注意力机制驱动的音频分类模型,回答了这一问题。我们在多个音频分类基准上对AST进行了评估,结果表明其在AudioSet数据集上取得了0.485的mAP新最优成绩,在ESC-50数据集上达到95.6%的准确率,在Speech Commands V2数据集上达到98.1%的准确率,显著提升了现有技术水平。
代码仓库
cgaroufis/msspt
tf
GitHub 中提及
nttcslab/composing-general-audio-repr
pytorch
GitHub 中提及
YuanGongND/ast
官方
pytorch
GitHub 中提及
pxaris/ccml
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | AST (Ensemble) | Test mAP: 0.485 |
| audio-classification-on-audioset | AST (Single) | Test mAP: 0.459 |
| audio-classification-on-esc-50 | Audio Spectrogram Transformer | Accuracy (5-fold): 95.7 PRE-TRAINING DATASET: AudioSet, ImageNet Top-1 Accuracy: 95.7 |
| audio-classification-on-speech-commands-1 | AST-S | Accuracy: 98.11±0.05 |
| audio-tagging-on-audioset | Audio Spectrogram Transformer | mean average precision: 0.485 |
| keyword-spotting-on-google-speech-commands | Audio Spectrogram Transformer | Google Speech Commands V2 35: 98.11 |
| speech-emotion-recognition-on-crema-d | ViT | Accuracy: 67.81 |
| time-series-on-speech-commands | ViT | % Test Accuracy: 98.11 |