3 个月前

Libri-Light:面向有限或无监督场景的自动语音识别基准测试

Libri-Light:面向有限或无监督场景的自动语音识别基准测试

摘要

我们提出一个适用于在有限或无监督条件下训练语音识别系统的新型英语语音音频数据集。该数据集源自开源有声书项目LibriVox,包含超过6万小时的音频内容,据我们所知,这是目前公开可获取的规模最大的语音语料库。音频已通过语音活动检测(Voice Activity Detection)进行分割,并标注了信噪比(SNR)、说话人ID以及体裁信息。此外,我们提供了三种不同设置下的基线系统与评估指标:(1)零资源/无监督设置(ABX),(2)半监督设置(PER、CER),以及(3)远距离监督设置(WER)。其中,设置(2)和(3)均使用少量对齐文本资源(10分钟至10小时),而设置(3)则采用大量未对齐的文本数据。所有方法均在标准的LibriSpeech开发集和测试集上进行评估,以便与有监督条件下的最先进方法进行对比。

代码仓库

facebookresearch/libri-light
官方
pytorch
GitHub 中提及
k2-fsa/libriheavy
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-libri-light-test-cleanCPC unlab-60k
ABX-across: 7.56
ABX-within: 5.83
speech-recognition-on-libri-light-test-cleanCPC unlab-60k+train-10h CPC pretrain + CTC fine-tuning + 4gram-LM
Word Error Rate (WER): 43.9
speech-recognition-on-libri-light-test-cleanTDS 60k pseudo-label + CTC fine-tuning + 4gram-LM
Word Error Rate (WER): 29.3
speech-recognition-on-libri-light-test-otherCPC unlab-60k
ABX-across: 13.42
ABX-within: 8.14
speech-recognition-on-libri-light-test-otherCPC unlab-60k+train-10h CPC pretrain + CTC fine-tuning + 4gram-LM
Word Error Rate (WER): 69.5
speech-recognition-on-libri-light-test-otherTDS 60k pseudo-label + CTC fine-tuning + 4gram-LM
Word Error Rate (WER): 56.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Libri-Light:面向有限或无监督场景的自动语音识别基准测试 | 论文 | HyperAI超神经