Jacob KahnMorgane RivièreWeiyi ZhengEvgeny KharitonovQiantong XuPierre-Emmanuel MazaréJulien KaradayiVitaliy LiptchinskyRonan CollobertChristian FuegenTatiana LikhomanenkoGabriel SynnaeveArmand JoulinAbdelrahman MohamedEmmanuel Dupoux

摘要
我们提出一个适用于在有限或无监督条件下训练语音识别系统的新型英语语音音频数据集。该数据集源自开源有声书项目LibriVox,包含超过6万小时的音频内容,据我们所知,这是目前公开可获取的规模最大的语音语料库。音频已通过语音活动检测(Voice Activity Detection)进行分割,并标注了信噪比(SNR)、说话人ID以及体裁信息。此外,我们提供了三种不同设置下的基线系统与评估指标:(1)零资源/无监督设置(ABX),(2)半监督设置(PER、CER),以及(3)远距离监督设置(WER)。其中,设置(2)和(3)均使用少量对齐文本资源(10分钟至10小时),而设置(3)则采用大量未对齐的文本数据。所有方法均在标准的LibriSpeech开发集和测试集上进行评估,以便与有监督条件下的最先进方法进行对比。
代码仓库
facebookresearch/libri-light
官方
pytorch
GitHub 中提及
k2-fsa/libriheavy
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-libri-light-test-clean | CPC unlab-60k | ABX-across: 7.56 ABX-within: 5.83 |
| speech-recognition-on-libri-light-test-clean | CPC unlab-60k+train-10h CPC pretrain + CTC fine-tuning + 4gram-LM | Word Error Rate (WER): 43.9 |
| speech-recognition-on-libri-light-test-clean | TDS 60k pseudo-label + CTC fine-tuning + 4gram-LM | Word Error Rate (WER): 29.3 |
| speech-recognition-on-libri-light-test-other | CPC unlab-60k | ABX-across: 13.42 ABX-within: 8.14 |
| speech-recognition-on-libri-light-test-other | CPC unlab-60k+train-10h CPC pretrain + CTC fine-tuning + 4gram-LM | Word Error Rate (WER): 69.5 |
| speech-recognition-on-libri-light-test-other | TDS 60k pseudo-label + CTC fine-tuning + 4gram-LM | Word Error Rate (WER): 56.6 |