
摘要
音频模式识别是机器学习领域的重要研究方向,涵盖音频标记、声学场景分类、音乐分类、语音情感识别以及声音事件检测等多个任务。近年来,神经网络已被广泛应用于解决音频模式识别问题。然而,以往的系统大多基于特定数据集构建,且训练数据的时长有限。在计算机视觉与自然语言处理领域,基于大规模数据集预训练的模型已展现出良好的跨任务泛化能力。相比之下,针对音频模式识别的大规模预训练系统研究仍较为有限。本文提出了一种在大规模 AudioSet 数据集上预训练的音频神经网络(Pretrained Audio Neural Networks, PANNs),并将其迁移应用于多种音频相关任务。我们系统地评估了基于不同卷积神经网络架构的 PANNs 在性能与计算复杂度方面的表现。此外,我们提出了一种名为 Wavegram-Logmel-CNN 的新型网络结构,该结构同时利用对数梅尔谱图(log-mel spectrogram)和原始波形作为输入特征,以充分捕捉音频的时频与时域信息。我们所提出的最优 PANN 系统在 AudioSet 音频标记任务上取得了 0.439 的平均精度均值(mean average precision, mAP),显著优于此前最佳系统 0.392 的表现。我们将 PANNs 迁移到六个音频模式识别任务中,并在其中多个任务上实现了当前最优性能。相关源代码与预训练模型已公开发布,详见:https://github.com/qiuqiangkong/audioset_tagging_cnn。
代码仓库
qiuqiangkong/audioset_tagging_cnn
官方
pytorch
gudgud96/frechet-audio-distance
pytorch
GitHub 中提及
yinkalario/General-Purpose-Sound-Recognition-Demo
官方
pytorch
GitHub 中提及
nttcslab/composing-general-audio-repr
pytorch
GitHub 中提及
google-research/leaf-audio
tf
GitHub 中提及
YuanGongND/psla
pytorch
GitHub 中提及
sithu31296/audio-tagging
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-audioset | PANNs-CNN14 (Single) | AUC: 0.973 Test mAP: 0.431 d-prime: 2.732 |
| audio-tagging-on-audioset | CNN14 | mean average precision: 0.431 |