3 个月前

基于局部先验匹配的半监督语音识别

基于局部先验匹配的半监督语音识别

摘要

在语音识别等序列转换任务中,强结构先验模型能够编码目标空间的丰富信息,通过为无效序列赋予低概率,隐式地排除其可能性。本文提出局部先验匹配(Local Prior Matching, LPM),一种半监督学习目标,通过从强先验模型(如语言模型)中蒸馏知识,为在无标签语音数据上训练的判别模型提供学习信号。我们证明,LPM在理论上具有充分依据,实现简单,且在相同设置下优于现有的知识蒸馏方法。以100小时有标签语音数据训练的基线模型为基础,额外引入360小时无标签数据后,LPM在干净和嘈杂测试集上分别将词错误率(WER)降低至全监督模型的54%和73%,显著提升了模型性能。

基准测试

基准方法指标
speech-recognition-on-librispeech-test-cleanLocal Prior Matching (Large Model)
Word Error Rate (WER): 7.19
speech-recognition-on-librispeech-test-otherLocal Prior Matching (Large Model, ConvLM LM)
Word Error Rate (WER): 15.28
speech-recognition-on-librispeech-test-otherLocal Prior Matching (Large Model)
Word Error Rate (WER): 20.84

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于局部先验匹配的半监督语音识别 | 论文 | HyperAI超神经