
摘要
基于序列级准则训练的转导器模型由于生成大规模概率矩阵而需要大量内存。我们提出了一种基于帧级准则的轻量级转导器模型,该模型利用CTC强制对齐算法的结果来确定每个帧的标签。然后,编码器输出可以在相应时间点与解码器输出结合,而不是像传统转导器那样将编码器输出的每个元素与解码器输出的每个元素相加。这显著降低了内存和计算需求。为了解决因标签中过多空白导致的分类不平衡问题,我们将空白和非空白的概率分离,并截断空白分类器对主网络的梯度。在AISHELL-1数据集上的实验表明,这种方法使轻量级转导器能够实现与传统转导器相似的结果。此外,我们使用了更丰富的信息来预测空白的概率,从而取得了优于传统转导器的效果。
代码仓库
wangmengzhi/Lightweight-Transducer
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-aishell-1 | Lightweight Transducer With LM | Params(M): 45.3 Word Error Rate (WER): 4.03 |
| speech-recognition-on-aishell-1 | Lightweight Transducer | Params(M): 45.3 Word Error Rate (WER): 4.31 |