3 个月前

用于神经音频数据处理的子谱归一化

用于神经音频数据处理的子谱归一化

摘要

卷积神经网络在众多机器学习领域中得到了广泛应用。在图像处理中,可通过在输入的所有空间维度上应用二维卷积来提取特征。然而,在音频处理中,诸如梅尔频谱图(Mel-Spectrogram)这类频域输入在频率维度上具有独特且不同的特性。因此,亟需一种能够使二维卷积层对频率维度进行差异化处理的方法。本文提出了一种名为子频带归一化(SubSpectral Normalization, SSN)的新方法,该方法将输入的频率维度划分为若干组(子频带),并对每一组分别执行独立的归一化操作。此外,SSN还引入了可应用于每组的仿射变换。该方法在保证网络学习频率感知特征的同时,有效消除了频率维度之间的相互干扰。在音频数据的实验中,我们发现SSN能够显著提升网络的性能。

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsres8 w/ SSN(S=4, A=Sub)
% Test Accuracy: 95.4% ±0.22
keyword-spotting-on-google-speech-commandsres15 w/ SSN(S=4, A=Sub) (2019)
% Test Accuracy: 97.5% ±0.15
keyword-spotting-on-google-speech-commandsres15 w/ SSN(S=4, A=Sub)
% Test Accuracy: 96.8% ±0.13
keyword-spotting-on-tau-urban-acoustic-scenesCP-ResNet(ch64) w/ SSN(S=2, A=Sub)
Accuracy: 83.6% ±0.07
keyword-spotting-on-tau-urban-acoustic-scenesCP-ResNet(ch128) w/ SSN(S=2, A=Sub)
Accuracy: 84.1% ±0.20

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于神经音频数据处理的子谱归一化 | 论文 | HyperAI超神经