Guoguo ChenShuzhou ChaiGuanbo WangJiayu DuWei-Qiang ZhangChao WengDan SuDaniel PoveyJan TrmalJunbo ZhangMingjie JinSanjeev KhudanpurShinji WatanabeShuaijiang ZhaoWei ZouXiangang LiXuchen YaoYongqing WangYujun WangZhao YouZhiyong Yan

摘要
本文介绍了GigaSpeech,这是一个持续演进的多领域英文语音识别语料库,包含10,000小时高质量标注音频,适用于监督学习训练;总计40,000小时的音频数据则适用于半监督与无监督训练。约40,000小时的已转录音频最初来源于有声书、播客及YouTube视频,涵盖朗读与即兴表达两种口语风格,并覆盖艺术、科学、体育等多个主题。本文提出了一种新的强制对齐与语音切分流程,用于生成适用于语音识别训练的句子级音频片段,并过滤掉转录质量较低的片段。在系统训练方面,GigaSpeech提供了五个不同规模的训练子集:10小时、250小时、1000小时、2500小时和10,000小时。对于10,000小时的超大规模(XL)训练子集,在数据筛选与验证阶段将词错误率(Word Error Rate, WER)上限控制在4%以内;而对于其他较小规模的训练子集,则将WER上限严格控制在0%。此外,开发集(DEV)与测试集(TEST)经过专业人工转录人员的重新处理,以确保转录质量达到高水平。本文还为多种主流语音识别工具包(包括Athena、ESPnet、Kaldi和Pika)提供了基线系统。
代码仓库
speechtranslation/gigas2s
GitHub 中提及
maikezuefle/contr-pretraining
pytorch
GitHub 中提及
SpeechColab/GigaSpeech
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-gigaspeech | Conformer/Transformer-AED | Word Error Rate (WER): 10.90 |
| speech-recognition-on-gigaspeech-dev | Conformer/Transformer-AED | Word Error Rate (WER): 10.90 |
| speech-recognition-on-gigaspeech-test | Conformer/Transformer-AED | Word Error Rate (WER): 10.80 |