4 个月前

使用CHiME-4挑战赛数据构建最先进的远场语音识别系统,并设置语音增强基线

使用CHiME-4挑战赛数据构建最先进的远场语音识别系统,并设置语音增强基线

摘要

本文描述了一种新的基线系统,用于在CHiME-4挑战中进行自动语音识别(ASR),旨在通过提供以下两个方面促进语音处理社区中噪声环境下的ASR发展:1)一种简化的单系统,其性能可与挑战中的复杂顶级系统相媲美;2)通过Kaldi语音识别工具包的主要仓库提供的公开且可复现的实现方案。所提出的系统采用了广义特征值波束形成技术,并结合双向长短时记忆(LSTM)掩码估计。我们还提出使用基于最大互信息无格子版本(LF-MMI)训练的时间延迟神经网络(TDNN),该网络利用增强后的六麦克风数据及波束形成后的数据进行训练。最后,我们使用LSTM语言模型进行格子和N最佳重评分。最终系统在6通道赛道的实际测试集中实现了2.74%的词错误率(WER),这在挑战中排名第二。此外,所提出的基线实现方案包括四种不同的语音增强评估指标:短时客观可懂度指标(STOI)、扩展STOI(eSTOI)、感知语音质量评估(PESQ)和语音失真比(SDR),适用于模拟测试集。因此,该实现方案还为使用这些性能指标进行语音增强研究提供了实验平台。

基准测试

基准方法指标
distant-speech-recognition-on-chime-4-realHMM-TDNN(LFMMI) + LSTMLM + NN-GEV
Word Error Rate (WER): 2.74
noisy-speech-recognition-on-chime-realHMM-TDNN(LFMMI) + LSTMLM
Percentage error: 11.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
使用CHiME-4挑战赛数据构建最先进的远场语音识别系统,并设置语音增强基线 | 论文 | HyperAI超神经