3 个月前

Squeezeformer:一种用于自动语音识别的高效Transformer

Squeezeformer:一种用于自动语音识别的高效Transformer

摘要

近期提出的Conformer模型因其融合注意力机制与卷积结构的混合架构,能够有效捕捉语音信号的局部与全局特征,已成为各类下游语音任务的默认骨干模型。然而,通过一系列系统性研究,我们发现Conformer架构的设计选择并非最优。在对Conformer的宏观与微观架构设计进行重新审视后,我们提出了Squeezeformer模型,在相同训练方案下,其性能持续优于当前最先进的自动语音识别(ASR)模型。具体而言,在宏观架构方面,Squeezeformer引入了两项关键改进:(i)采用时序U-Net结构,显著降低了长序列上多头注意力模块的计算开销;(ii)采用更简洁的模块结构——即多头注意力或卷积模块后接前馈网络模块,取代Conformer中提出的Macaron结构。此外,在微观架构层面,Squeezeformer进一步进行了优化:(i)简化了卷积模块中的激活函数设计;(ii)移除了冗余的层归一化(Layer Normalization)操作;(iii)引入高效的深度可分离下采样层,以高效地对输入信号进行降采样。在LibriSpeech测试集(test-other)上,Squeezeformer在不使用外部语言模型的情况下,实现了7.5%、6.5%和6.0%的词错误率(WER),相较相同浮点运算量(FLOPs)下的Conformer-CTC模型,分别提升了3.1%、1.4%和0.6%。该成果表明Squeezeformer在保持高效性的同时显著提升了识别准确率。相关代码已开源,可在线获取。

代码仓库

upskyy/Squeezeformer
pytorch
GitHub 中提及
kssteven418/squeezeformer
官方
tf
GitHub 中提及
msalhab96/SpeeQ
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanSqueezeformer (L)
Word Error Rate (WER): 2.47
speech-recognition-on-librispeech-test-otherSqueezeformer (L)
Word Error Rate (WER): 5.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Squeezeformer:一种用于自动语音识别的高效Transformer | 论文 | HyperAI超神经