3 个月前

基于大规模语料库的CTC分段技术在德语端到端语音识别中的应用

Ludwig Kürzinger Dominik Winkelbauer Lujun Li Tobias Watzel Gerhard Rigoll

摘要

近期的端到端自动语音识别（ASR）系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外，这些模型在深度、参数量和模型容量方面均显著增长。然而，这类模型也需更多训练数据才能达到相当的性能水平。在本研究中，我们整合了多个可用于德语语音识别的公开语料库，包括尚未标注的语音数据，构建了一个超过1700小时的大型语音数据集。在数据准备方面，我们提出一种两阶段方法：首先利用通过连接时序分类（Connectionist Temporal Classification, CTC）预训练的ASR模型，从无分割或未标注的训练数据中自动获取更多训练样本。具体而言，通过在CTC模型上获得的标签概率，推断出语音片段的对齐结果，进而提取出有效语音片段。基于该扩充后的训练数据，我们训练了一个混合CTC/注意力机制的Transformer模型，在Tuda-DE测试集上取得了12.8%的词错误率（WER），显著优于传统混合DNN/HMM ASR系统的先前基准（14.4% WER）。