
摘要
我们提出了一种名为 SpeechStew 的语音识别模型,该模型在多种公开可用的语音识别数据集上进行训练,包括 AMI、Broadcast News、Common Voice、LibriSpeech、Switchboard/Fisher、Tedlium 以及 Wall Street Journal。SpeechStew 仅将这些数据集简单地混合在一起进行训练,未采用任何特殊的加权或数据平衡策略。在无需使用外部语言模型的前提下,SpeechStew 在多个任务上取得了当前最优(SoTA)或接近最优的性能表现。具体结果包括:在 AMI-IHM 任务上达到 9.0% 的词错误率(WER),Switchboard 任务上为 4.7%,CallHome 任务上为 8.3%,Wall Street Journal 任务上仅为 1.3%。这些结果显著优于以往依赖强外部语言模型的工作。此外,我们还证明了 SpeechStew 能够学习到强大的迁移学习表征能力。在噪声环境下低资源语音数据集 CHiME-6 上进行微调后,SpeechStew 在未使用语言模型的情况下实现了 38.9% 的 WER,与采用语言模型的强 HMM 基线模型(38.6% WER)相比表现相当,充分展现了其在复杂场景下的鲁棒性与有效性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-ami-imh | SpeechStew (100M) | Word Error Rate (WER): 9 |
| speech-recognition-on-ami-sdm1 | SpeechStew (100M) | Word Error Rate (WER): 21.7 |
| speech-recognition-on-chime-6-dev-gss12 | SpeechStew (1B) | Word Error Rate (WER): 31.9 |
| speech-recognition-on-chime-6-eval | SpeechStew (1B) | Word Error Rate (WER): 38.9 |
| speech-recognition-on-common-voice-2 | SpeechStew (1B) | Test WER: 10.8% |
| speech-recognition-on-librispeech-test-clean | SpeechStew (1B) | Word Error Rate (WER): 1.7 |
| speech-recognition-on-librispeech-test-clean | SpeechStew (100M) | Word Error Rate (WER): 2.0 |
| speech-recognition-on-librispeech-test-other | SpeechStew (1B) | Word Error Rate (WER): 3.3 |
| speech-recognition-on-librispeech-test-other | SpeechStew (100M) | Word Error Rate (WER): 4.0 |
| speech-recognition-on-switchboard-callhome | SpeechStew (100M) | Word Error Rate (WER): 8.3 |
| speech-recognition-on-switchboard-swbd | SpeechStew (100M) | Word Error Rate (WER): 4.7 |
| speech-recognition-on-tedlium | SpeechStew (100M) | Word Error Rate (WER): 5.3 |
| speech-recognition-on-wsj-eval92 | Speechstew 100M | Word Error Rate (WER): 1.3 |