
摘要
尽管已经提出了多种高效的架构和大量的增强方法用于端到端的图像分类任务,并进行了深入研究,但目前最先进的音频分类技术仍然依赖于多种音频信号表示方法以及大型架构,这些模型通常是从大规模数据集中微调而来。通过利用音频固有的轻量特性及新颖的音频增强技术,我们成功设计了一个高效且具有强大泛化能力的端到端网络。在多个声音分类数据集上的实验表明,我们的方法在不同设置下均能取得最先进水平的结果,展示了其有效性和鲁棒性。公开代码可从以下链接获取:https://github.com/Alibaba-MIIL/AudioClassification
代码仓库
Alibaba-MIIL/AudioClassfication
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | EAT-S | Test mAP: 0.405 |
| audio-classification-on-audioset | EAT-M | Test mAP: 0.426 |
| audio-classification-on-esc-50 | EAT-S | Accuracy (5-fold): 95.25 PRE-TRAINING DATASET: AudioSet Top-1 Accuracy: 95.25 |
| audio-classification-on-esc-50 | EAT-M | Accuracy (5-fold): 96.3 PRE-TRAINING DATASET: AudioSet Top-1 Accuracy: 96.3 |
| audio-classification-on-esc-50 | EAT-S (scratch) | Accuracy (5-fold): 92.15 Top-1 Accuracy: 92.15 |
| keyword-spotting-on-google-speech-commands | EAT-S | Google Speech Commands V2 35: 98.15 |