
摘要
最近,多层感知机(MLP)结构再次受到关注,其中MLP-Mixer尤为突出。在计算机视觉领域,MLP-Mixer以其从通道和标记两个角度提取数据信息的能力而著称,有效地实现了通道和标记信息的融合。实际上,Mixer代表了一种信息提取范式,将通道和标记信息综合在一起。Mixer的核心在于其能够从不同角度混合信息,体现了神经网络架构中“混合”的真正概念。除了通道和标记方面的考虑外,还可以从各种角度创建更加定制化的混合器,以更好地满足特定任务的需求。本研究聚焦于音频识别领域,引入了一种名为带滚动时间和厄米FFT的音频频谱图混合器(Audio Spectrogram Mixer with Roll-Time and Hermit FFT, ASM-RH)的新模型,该模型结合了时域和频域的见解。实验结果表明,ASM-RH特别适用于音频数据,并在多个分类任务中取得了令人鼓舞的结果。相关模型及最优权重文件将予以发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-classification-on-ravdess | ASM-RH-A | Top-1 Accuracy: 75.4 |
| audio-classification-on-speech-commands-1 | ASM-RH | Accuracy: 96.51 |