3 个月前

德语自动语音识别中的详细错误分析

德语自动语音识别中的详细错误分析

摘要

基于神经网络的自动语音识别(ASR)系统中,可供自由获取的资源正稳步增长,其预测结果的可靠性也不断提升。然而,当前对训练完成的模型评估通常仅依赖于统计指标(如词错误率WER或字符错误率CER),这些指标无法揭示语音输入转录过程中所产生的错误的本质特征及其实际影响。本文选取了一系列在德语语料上预训练的ASR模型架构,并在一组多样化的测试数据集上对其进行评估。研究识别出跨架构的预测错误,将这些错误进行分类,并进一步追溯各类错误的根源,包括训练数据本身及其他潜在因素。最后,本文探讨了改进方案,旨在构建质量更高的训练数据集,并开发更具鲁棒性的ASR系统。

基准测试

基准方法指标
automatic-speech-recognition-on-huiConformer Transducer
WER (%): 1.89%
automatic-speech-recognition-on-m-ailabsConformer Transducer
WER (%): 4.28%
automatic-speech-recognition-on-the-spokenConformer Transducer
WER (%): 8.04%
automatic-speech-recognition-on-voxforgeConformer Transducer
WER (%): 3.36%
automatic-speech-recognition-on-voxpopuliConformer Transducer (German)
WER (%): 8.98%
speech-recognition-on-common-voice-germanConformer Transducer (no LM)
Test WER: 6.28%
speech-recognition-on-tudaConformer-Transducer (no LM)
Test WER: 5.82%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
德语自动语音识别中的详细错误分析 | 论文 | HyperAI超神经