
摘要
Conformer 已成为自动语音识别(ASR)领域最流行的编码器模型,其通过在 Transformer 架构中引入卷积模块,能够同时捕捉局部与全局依赖关系。在本工作中,我们提出了一种更快速、内存效率更高且性能更优的 Transformer 变体,称为 Zipformer。其主要建模改进包括:1)采用类似 U-Net 的编码器结构,中间层以更低的帧率进行处理;2)重构块结构,引入更多模块,并通过复用注意力权重以提升计算效率;3)提出一种改进的 LayerNorm 变体——BiasNorm,能够在保留部分序列长度信息的同时维持归一化效果;4)设计了新型激活函数 SwooshR 与 SwooshL,其性能优于传统的 Swish 函数。此外,我们还提出一种新型优化器——ScaledAdam,该优化器根据每个张量当前的尺度对更新量进行缩放,以保持相对变化的一致性,并显式地学习参数的尺度。相比 Adam 优化器,ScaledAdam 具有更快的收敛速度和更优的性能表现。在 LibriSpeech、Aishell-1 以及 WenetSpeech 等多个公开数据集上的大量实验表明,所提出的 Zipformer 在各项指标上均优于当前主流的先进 ASR 模型。相关代码已开源,可访问 https://github.com/k2-fsa/icefall 获取。
代码仓库
k2-fsa/icefall
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-librispeech-test-clean | Zipformer+pruned transducer (no external language model) | Word Error Rate (WER): 2.00 |
| speech-recognition-on-librispeech-test-other | Zipformer+pruned transducer (no external language model) | Word Error Rate (WER): 4.38 |
| speech-recognition-on-wenetspeech | Zipformer+pruned transducer (no external language model) | Character Error Rate (CER): 7.29 |