3 个月前

音频Transformer

音频Transformer

摘要

在过去二十年中,卷积神经网络(CNN)架构在声音感知与认知建模方面取得了显著成果,能够学习到特征的分层组织结构。与计算机视觉领域的成功类似,音频特征分类可在多种数据集和标签体系下针对特定任务进行优化。事实上,专为图像理解设计的类似架构已被证明在声学场景分析任务中同样有效。本文提出将基于Transformer的架构(不包含卷积层)直接应用于原始音频信号。在包含200个类别的标准数据集Free Sound 50K上,我们的模型超越了传统卷积模型,达到了当前最先进的性能水平。这一成果尤为关键,因为在自然语言处理和计算机视觉领域之外,我们并未采用无监督预训练策略,便实现了对卷积架构的超越。在相同的训练集上,相较于平均精度(mean average precision)基准,我们实现了显著的性能提升。此外,通过引入近年来为卷积网络设计的池化技术,我们进一步优化了Transformer架构的性能。同时,我们还展示了如何借鉴小波理论中的多速率信号处理思想,应用于Transformer的嵌入表示,从而进一步提升模型表现。最后,我们揭示了所提出的模型能够自动学习一种非线性、非恒定带宽的滤波器组,该滤波器组呈现出一种适应性强的时间-频率前端表征,适用于音频理解任务,其特性与诸如音高估计等其他任务所依赖的表征方式存在本质差异。

基准测试

基准方法指标
audio-classification-on-fsd50kLarge 6-Layer Transformer with Pooling
mAP: 53.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
音频Transformer | 论文 | HyperAI超神经