
摘要
近期的端到端自动语音识别(ASR)系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外,这些模型在深度、参数量和模型容量方面均显著增长。然而,这类模型也需更多训练数据才能达到相当的性能水平。在本研究中,我们整合了多个可用于德语语音识别的公开语料库,包括尚未标注的语音数据,构建了一个超过1700小时的大型语音数据集。在数据准备方面,我们提出一种两阶段方法:首先利用通过连接时序分类(Connectionist Temporal Classification, CTC)预训练的ASR模型,从无分割或未标注的训练数据中自动获取更多训练样本。具体而言,通过在CTC模型上获得的标签概率,推断出语音片段的对齐结果,进而提取出有效语音片段。基于该扩充后的训练数据,我们训练了一个混合CTC/注意力机制的Transformer模型,在Tuda-DE测试集上取得了12.8%的词错误率(WER),显著优于传统混合DNN/HMM ASR系统的先前基准(14.4% WER)。
代码仓库
pzelasko/espnet
pytorch
GitHub 中提及
jumon/espnet-1
pytorch
GitHub 中提及
cornerfarmer/ctc_segmentation
官方
GitHub 中提及
lumaku/german-corpus-aligned
GitHub 中提及
danoneata/espnet
pytorch
GitHub 中提及
EsamGhaleb/SharedLinguisticConstructions
pytorch
GitHub 中提及
lumaku/ctc-segmentation
pytorch
GitHub 中提及
jzmo/espnet
pytorch
GitHub 中提及
victor45664/espnet
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-tuda | Hybrid CTC/Attention | Test WER: 12.8% |