3 个月前

基于大规模语料库的CTC分段技术在德语端到端语音识别中的应用

基于大规模语料库的CTC分段技术在德语端到端语音识别中的应用

摘要

近期的端到端自动语音识别(ASR)系统已展现出超越传统混合DNN/HMM ASR系统的性能。除了架构上的改进外,这些模型在深度、参数量和模型容量方面均显著增长。然而,这类模型也需更多训练数据才能达到相当的性能水平。在本研究中,我们整合了多个可用于德语语音识别的公开语料库,包括尚未标注的语音数据,构建了一个超过1700小时的大型语音数据集。在数据准备方面,我们提出一种两阶段方法:首先利用通过连接时序分类(Connectionist Temporal Classification, CTC)预训练的ASR模型,从无分割或未标注的训练数据中自动获取更多训练样本。具体而言,通过在CTC模型上获得的标签概率,推断出语音片段的对齐结果,进而提取出有效语音片段。基于该扩充后的训练数据,我们训练了一个混合CTC/注意力机制的Transformer模型,在Tuda-DE测试集上取得了12.8%的词错误率(WER),显著优于传统混合DNN/HMM ASR系统的先前基准(14.4% WER)。

代码仓库

pzelasko/espnet
pytorch
GitHub 中提及
jumon/espnet-1
pytorch
GitHub 中提及
cornerfarmer/ctc_segmentation
官方
GitHub 中提及
danoneata/espnet
pytorch
GitHub 中提及
lumaku/ctc-segmentation
pytorch
GitHub 中提及
jzmo/espnet
pytorch
GitHub 中提及
victor45664/espnet
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-tudaHybrid CTC/Attention
Test WER: 12.8%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于大规模语料库的CTC分段技术在德语端到端语音识别中的应用 | 论文 | HyperAI超神经