6 个月前

摘要

我们提出 Samba ASR，这是首个基于状态空间模型（State-Space Models, SSMs）构建的先进自动语音识别（Automatic Speech Recognition, ASR）模型，其编码器与解码器均采用新型 Mamba 架构。与依赖自注意力机制捕捉依赖关系的基于 Transformer 的 ASR 模型不同，Samba ASR 通过高效的态空间动态机制，能够有效建模局部与全局的时间依赖性，从而实现显著的性能提升。通过克服 Transformer 模型在输入长度增长时出现的二次方计算复杂度以及处理长程依赖能力不足等局限性，Samba ASR 在准确率与计算效率方面均表现出卓越性能。实验结果表明，Samba ASR 在多个标准基准测试中均超越现有开源的基于 Transformer 的 ASR 模型，确立了当前 ASR 领域的新技术标杆。在各类基准数据集上的广泛评估显示，其词错误率（Word Error Rate, WER）显著降低，即便在低资源场景下也展现出具有竞争力的性能表现。此外，Mamba 架构所具备的计算高效性与参数优化能力，使 Samba ASR 成为适用于多样化 ASR 任务的可扩展且鲁棒的解决方案。本工作的主要贡献包括：1. 提出一种全新的 Samba ASR 架构，充分验证了状态空间模型（SSMs）在语音序列建模任务中相较于 Transformer 模型的优越性；2. 在公开基准数据集上开展全面评估，展示了当前最先进的性能表现；3. 系统分析了模型的计算效率、抗噪声能力以及序列泛化性能。本研究有力证明了 Mamba SSM 架构作为无需依赖 Transformer 的高效、高精度 ASR 替代方案的可行性。通过融合状态空间建模的最新进展，Samba ASR 为 ASR 性能设定了新的基准，并为未来研究提供了重要方向。

源 PDF