3 个月前

基于语音基础模型的知识蒸馏的音视频表征学习

基于语音基础模型的知识蒸馏的音视频表征学习

摘要

音视频表示学习在推动多模态语音处理任务(如唇读和音视频语音识别)方面具有关键作用。近年来,语音基础模型(Speech Foundation Models, SFMs)在多种语音相关任务中展现出卓越的泛化能力。基于这一进展,本文提出一种音视频表示学习模型,该模型通过从SFMs中蒸馏跨模态知识来实现性能提升。在所提方法中,SFMs作为教师模型,利用纯净音频输入提取其多层隐藏表示。同时,我们引入一种多教师集成蒸馏策略,将音视频数据作为学生模型的输入,以实现更有效的知识迁移。为训练学生模型,在预训练阶段采用一种新型表示知识蒸馏损失函数,并在微调阶段继续应用该损失,从而进一步提升下游任务的性能。实验中,我们分别使用了自监督的SFMs(WavLM)和监督学习的SFMs(iFLYTEK-speech)作为教师模型。结果表明,所提出的方法在自动语音识别、视觉语音识别以及音视频语音识别等多项任务上,均达到或优于现有最先进基准模型的性能。此外,通过全面的消融实验以及对学习表示的可视化分析,进一步验证了所提方法的有效性。

代码仓库

jxzhanggg/DistillAV
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
audio-visual-speech-recognition-on-lrs3-tedDistillAV
Word Error Rate (WER): 1.3
automatic-speech-recognition-asr-on-lrs3-tedDistillAV
WER: 1.4
lipreading-on-lrs3-tedDistillAV
Word Error Rate (WER): 26.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语音基础模型的知识蒸馏的音视频表征学习 | 论文 | HyperAI超神经