4 个月前

混合器不仅仅是一个模型

混合器不仅仅是一个模型

摘要

最近,多层感知机(MLP)结构再次受到关注,其中MLP-Mixer尤为突出。在计算机视觉领域,MLP-Mixer以其从通道和标记两个角度提取数据信息的能力而著称,有效地实现了通道和标记信息的融合。实际上,Mixer代表了一种信息提取范式,将通道和标记信息综合在一起。Mixer的核心在于其能够从不同角度混合信息,体现了神经网络架构中“混合”的真正概念。除了通道和标记方面的考虑外,还可以从各种角度创建更加定制化的混合器,以更好地满足特定任务的需求。本研究聚焦于音频识别领域,引入了一种名为带滚动时间和厄米FFT的音频频谱图混合器(Audio Spectrogram Mixer with Roll-Time and Hermit FFT, ASM-RH)的新模型,该模型结合了时域和频域的见解。实验结果表明,ASM-RH特别适用于音频数据,并在多个分类任务中取得了令人鼓舞的结果。相关模型及最优权重文件将予以发布。

基准测试

基准方法指标
audio-classification-on-ravdessASM-RH-A
Top-1 Accuracy: 75.4
audio-classification-on-speech-commands-1ASM-RH
Accuracy: 96.51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
混合器不仅仅是一个模型 | 论文 | HyperAI超神经