Qiantong XuAlexei BaevskiTatiana LikhomanenkoPaden TomaselloAlexis ConneauRonan CollobertGabriel SynnaeveMichael Auli

摘要
自训练(self-training)与无监督预训练已成为利用未标注数据提升语音识别系统性能的有效方法。然而,目前尚不明确这两种方法是否学习到相似的特征模式,以及它们是否能够有效结合。本文表明,在多种标注数据配置下,伪标签法(pseudo-labeling)与基于wav2vec 2.0的预训练具有互补性。仅使用Libri-light中的10分钟标注数据,以及LibriVox提供的53,000小时未标注数据,即可在LibriSpeech数据集的干净测试集和其它测试集上分别实现3.0%和5.2%的词错误率(WER),性能媲美一年前仅使用960小时标注数据训练的最佳公开系统。而在使用LibriSpeech全部标注数据进行训练的情况下,词错误率进一步降至1.5%和3.1%。
代码仓库
pytorch/fairseq
官方
pytorch
GitHub 中提及
facebookresearch/fairseq
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-librispeech-test-clean | wav2vec_wav2letter | Word Error Rate (WER): 2.7 |
| speech-recognition-on-librispeech-test-clean | Conv + Transformer + wav2vec2.0 + pseudo labeling | Word Error Rate (WER): 1.5 |
| speech-recognition-on-librispeech-test-other | Conv + Transformer + wav2vec2.0 + pseudo labeling | Word Error Rate (WER): 3.1 |
| speech-recognition-on-librispeech-train-clean | wav2vec_wav2letter | Word Error Rate (WER): 2.8 |
| speech-recognition-on-librispeech-train-clean-1 | wav2vec_wav2letter | Word Error Rate (WER): 3.6 |