4 个月前

动态卷积神经网络作为高效的预训练音频模型

动态卷积神经网络作为高效的预训练音频模型

摘要

大规模音频数据集(如AudioSet)的引入为Transformer在音频领域的应用铺平了道路,并使其在许多任务中取代卷积神经网络(CNN)成为最先进的神经网络架构。音频频谱图Transformer在利用大型数据集方面表现出色,能够生成强大的预训练模型,在微调下游任务时超越CNN。然而,当前流行的音频频谱图Transformer在计算复杂度方面比CNN更为苛刻。最近,我们证明了通过使用Transformer到CNN的知识蒸馏技术,高效的CNN可以在大型数据集上赶上甚至超过Transformer的性能。在这项工作中,我们进一步扩展了这一研究方向,并通过引入动态CNN模块(由动态非线性、动态卷积和注意力机制构建)来提高高效CNN的能力。我们展示了这些动态CNN在大规模AudioSet上的音频标签任务中,在性能-复杂度权衡和参数效率方面优于传统的高效CNN。此外,我们的实验还表明,所引入的动态CNN在下游任务中表现出更好的性能,并且具有良好的可扩展性,在AudioSet及多个下游任务中达到了与Transformer相当甚至更优的性能。

代码仓库

fschmid56/efficientat
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-classification-on-audiosetDyMN-L (Audio-Only, Single)
Test mAP: 0.490
audio-classification-on-esc-50DyMN-L
Accuracy (5-fold): 97.4
PRE-TRAINING DATASET: AudioSet
Top-1 Accuracy: 97.4
audio-classification-on-fsd50kMN
mAP: 65.6
audio-classification-on-fsd50kDyMN-L
mAP: 65.5
audio-tagging-on-audiosetDyMN-L (Audio-Only, Single)
mean average precision: 0.490
instrument-recognition-on-openmic-2018DyMN-L
mean average precision: 0.855

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
动态卷积神经网络作为高效的预训练音频模型 | 论文 | HyperAI超神经