4 个月前

WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库

WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库

摘要

本文介绍了WenetSpeech,这是一个多领域的普通话语料库,包含超过10000小时的高质量标注语音、2400多小时的弱标注语音以及约10000小时的未标注语音,总计22400多小时。我们从YouTube和播客中收集了这些数据,涵盖了多种说话风格、场景、领域、话题和噪声条件。对于YouTube数据,我们引入了一种基于光学字符识别(OCR)的方法来生成与其对应的视频字幕相关的音频/文本分割候选;而对于播客数据,则使用了一个高质量的自动语音识别(ASR)转录系统来生成音频/文本对候选。随后,我们提出了一种新颖的端到端标签错误检测方法,以进一步验证和筛选这些候选。此外,我们还提供了三个手动标注的高质量测试集,与WenetSpeech一起用于评估——Dev用于训练中的交叉验证,Test_Net从互联网收集用于匹配测试,Test_Meeting则记录自真实会议,用于更具挑战性的不匹配测试。我们为三个流行的语音识别工具包Kaldi、ESPnet和WeNet提供了基于WenetSpeech训练的基线系统,并在三个测试集上提供了识别结果作为基准。据我们所知,WenetSpeech是目前最大的带有转录的开源普通话语音语料库,这将有助于生产级语音识别的研究。

代码仓库

wenet-e2e/wenetspeech
官方
mindspore
GitHub 中提及
aizhiqi-work/MM-KWS
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-wenetspeechKaldi
Character Error Rate (CER): 9.07
speech-recognition-on-wenetspeechWenet
Character Error Rate (CER): 8.88
speech-recognition-on-wenetspeechEspnet
Character Error Rate (CER): 9.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WenetSpeech:一个超过10000小时的多领域普通话语音识别语料库 | 论文 | HyperAI超神经