
摘要
在语音识别等序列转换任务中,强结构先验模型能够编码目标空间的丰富信息,通过为无效序列赋予低概率,隐式地排除其可能性。本文提出局部先验匹配(Local Prior Matching, LPM),一种半监督学习目标,通过从强先验模型(如语言模型)中蒸馏知识,为在无标签语音数据上训练的判别模型提供学习信号。我们证明,LPM在理论上具有充分依据,实现简单,且在相同设置下优于现有的知识蒸馏方法。以100小时有标签语音数据训练的基线模型为基础,额外引入360小时无标签数据后,LPM在干净和嘈杂测试集上分别将词错误率(WER)降低至全监督模型的54%和73%,显著提升了模型性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-librispeech-test-clean | Local Prior Matching (Large Model) | Word Error Rate (WER): 7.19 |
| speech-recognition-on-librispeech-test-other | Local Prior Matching (Large Model, ConvLM LM) | Word Error Rate (WER): 15.28 |
| speech-recognition-on-librispeech-test-other | Local Prior Matching (Large Model) | Word Error Rate (WER): 20.84 |