3 个月前

Zipformer:一种更快更优的自动语音识别编码器

Zipformer:一种更快更优的自动语音识别编码器

摘要

Conformer 已成为自动语音识别(ASR)领域最流行的编码器模型,其通过在 Transformer 架构中引入卷积模块,能够同时捕捉局部与全局依赖关系。在本工作中,我们提出了一种更快速、内存效率更高且性能更优的 Transformer 变体,称为 Zipformer。其主要建模改进包括:1)采用类似 U-Net 的编码器结构,中间层以更低的帧率进行处理;2)重构块结构,引入更多模块,并通过复用注意力权重以提升计算效率;3)提出一种改进的 LayerNorm 变体——BiasNorm,能够在保留部分序列长度信息的同时维持归一化效果;4)设计了新型激活函数 SwooshR 与 SwooshL,其性能优于传统的 Swish 函数。此外,我们还提出一种新型优化器——ScaledAdam,该优化器根据每个张量当前的尺度对更新量进行缩放,以保持相对变化的一致性,并显式地学习参数的尺度。相比 Adam 优化器,ScaledAdam 具有更快的收敛速度和更优的性能表现。在 LibriSpeech、Aishell-1 以及 WenetSpeech 等多个公开数据集上的大量实验表明,所提出的 Zipformer 在各项指标上均优于当前主流的先进 ASR 模型。相关代码已开源,可访问 https://github.com/k2-fsa/icefall 获取。

代码仓库

k2-fsa/icefall
官方
pytorch

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanZipformer+pruned transducer (no external language model)
Word Error Rate (WER): 2.00
speech-recognition-on-librispeech-test-otherZipformer+pruned transducer (no external language model)
Word Error Rate (WER): 4.38
speech-recognition-on-wenetspeechZipformer+pruned transducer (no external language model)
Character Error Rate (CER): 7.29

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Zipformer:一种更快更优的自动语音识别编码器 | 论文 | HyperAI超神经