3 个月前

基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移

基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移

摘要

大规模预训练语言模型(Pre-trained Language Models, PLMs)在自然语言处理任务中展现出巨大潜力。利用PLMs的能力来提升自动语音识别(ASR)系统,已成为一个极具前景的研究方向。然而,以往的研究在一定程度上受限于PLMs结构的僵化性以及对PLMs能力的利用不充分。为缓解上述问题,本文提出了一种基于连续积分-放电(Continuous Integrate-and-Fire, CIF)架构的ASR模型的分层知识蒸馏(Hierarchical Knowledge Distillation, HKD)方法。为实现从PLMs向ASR模型的知识迁移,HKD在声学层面采用基于对比损失的跨模态知识蒸馏,在语言层面则采用基于回归损失的知识蒸馏。与原始的CIF架构模型相比,所提方法在AISHELL-1和LibriSpeech数据集上分别实现了15%和9%的相对错误率降低。

代码仓库

minglunhan/cif-hieradist
pytorch
GitHub 中提及
MingLunHan/CIF-PyTorch
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-recognition-on-aishell-1CIF-HKD With LM
Params(M): 47
Word Error Rate (WER): 4.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于分层蒸馏的预训练语言模型到CIF-基语音识别器的知识迁移 | 论文 | HyperAI超神经