3 个月前

基于Transformer到CNN知识蒸馏的高效大规模音频标记

基于Transformer到CNN知识蒸馏的高效大规模音频标记

摘要

音频谱图变换器(Audio Spectrogram Transformer)模型在音频标记(Audio Tagging)任务中占据主导地位,显著超越了以往占主导地位的卷积神经网络(CNN)。其优越性能主要得益于能够有效扩展模型规模,并充分利用大规模数据集(如 AudioSet)。然而,与 CNN 相比,Transformer 模型在参数量和计算资源需求方面更为苛刻。为此,本文提出一种基于离线知识蒸馏(Offline Knowledge Distillation, KD)的高效 CNN 训练方法,通过从高性能但结构复杂的 Transformer 模型中迁移知识,实现对轻量级 CNN 的优化。所提出的训练框架结合基于 MobileNetV3 的高效网络设计,生成的模型在参数效率、计算效率以及预测性能方面均优于先前的解决方案。我们提供了多个不同复杂度级别的模型,其性能从低复杂度模型逐步提升至在 AudioSet 数据集上达到 0.483 mAP 的新最优水平。源代码已开源,地址为:https://github.com/fschmid56/EfficientAT。

代码仓库

fschmid56/efficientat
官方
pytorch
GitHub 中提及
fschmid56/efficientat_hear
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audiosetmn40_as (Single)
Test mAP: 0.483
audio-classification-on-audiosetmn40_as (Ensemble)
Test mAP: 0.498
audio-classification-on-esc-50mn40_as
Accuracy (5-fold): 97.45
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 97.45
audio-tagging-on-audiosetmn40_as (Single)
mean average precision: 0.483
audio-tagging-on-audiosetmn40_as (Ensemble)
mean average precision: 0.498

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于Transformer到CNN知识蒸馏的高效大规模音频标记 | 论文 | HyperAI超神经