4 个月前

SSAMBA:基于Mamba状态空间模型的自监督音频表示学习

SSAMBA:基于Mamba状态空间模型的自监督音频表示学习

摘要

变压器(Transformers)已经革新了包括音频表示学习在内的多种深度学习任务,这得益于其强大的建模能力。然而,它们通常在GPU内存使用和计算推理时间上面临二次复杂度的问题,影响了其效率。最近,状态空间模型(State Space Models, SSMs)如Mamba逐渐成为一种有前景的替代方案,通过避免这些复杂度问题提供了更加高效的方法。鉴于这些优势,我们探讨了基于SSM的模型在音频任务中的潜力。本文中,我们介绍了自监督音频Mamba(Self-Supervised Audio Mamba, SSAMBA),这是首个用于音频表示学习的自监督、无注意力机制且基于SSM的模型。SSAMBA利用双向Mamba有效地捕捉复杂的音频模式。我们引入了一个自监督预训练框架,该框架优化了判别性和生成性目标,使模型能够从大规模未标记数据集中学习到鲁棒的音频表示。我们在多个任务上对SSAMBA进行了评估,包括音频分类、关键词检测和说话人识别。结果表明,在大多数任务中,SSAMBA的表现优于自监督音频频谱变换器(Self-Supervised Audio Spectrogram Transformer, SSAST)。特别值得注意的是,在输入令牌大小为22k的小型模型尺寸下,SSAMBA的批量推理速度比SSAST快约92.7%,并且内存使用效率高约95.4%。这些效率提升与卓越性能相结合,突显了SSAMBA架构创新的有效性,使其成为广泛音频处理应用中的一个有吸引力的选择。

代码仓库

siavashshams/ssamba
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
keyword-spotting-on-google-speech-commandsSSAMBA
Google Speech Commands V1 12: 96.9
Google Speech Commands V2 35: 97.4
keyword-spotting-on-google-speech-commands-v2-3SSAMBA
Accuracy (10-fold): 97.4
speaker-identification-on-voxceleb1SSAMBA
Accuracy: 70.1
Number of Params: 99M
Top-1 (%): 70.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SSAMBA:基于Mamba状态空间模型的自监督音频表示学习 | 论文 | HyperAI超神经