3 个月前

首个自动 FonGbé 连续语音识别系统:声学模型与语言模型的构建

首个自动 FonGbé 连续语音识别系统:声学模型与语言模型的构建

摘要

本文报告了我们在构建一种面向新兴低资源语言(Fongbe)的自动语音识别(ASR)系统方面的研究工作。本研究旨在为Fongbe语建立声学模型与语言模型,以支持连续语音的解码任务。Fongbe语是一种主要在贝宁、多哥和尼日利亚使用的非洲语言,其面临的挑战在于目前尚无可用于ASR系统的任何语言资源。为此,本研究首先收集了Fongbe语的文本与语音语料库,相关数据在后续章节中详细描述。声学建模在音素层面(graphemic level)完成,语言建模则构建了两个语言模型,以供性能对比分析。此外,为探究声调变音符号对语言模型性能的影响,我们还实施了一种元音简化处理,即去除音调标记。

基准测试

基准方法指标
speech-recognition-on-fongbe-speechTriphone (39 features) + LDA and MLLT + SAT and FMLLR
Word Error Rate (WER): 17.77
speech-recognition-on-fongbe-speechTriphone (13 MFCC + delta + delta2)
Word Error Rate (WER): 26.75
speech-recognition-on-fongbe-speechTriphone (39 features) + LDA and MLLT + SGMM
Word Error Rate (WER): 16.57

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
首个自动 FonGbé 连续语音识别系统:声学模型与语言模型的构建 | 论文 | HyperAI超神经