6 个月前

摘要

音视频表示学习在推动多模态语音处理任务（如唇读和音视频语音识别）方面具有关键作用。近年来，语音基础模型（Speech Foundation Models, SFMs）在多种语音相关任务中展现出卓越的泛化能力。基于这一进展，本文提出一种音视频表示学习模型，该模型通过从SFMs中蒸馏跨模态知识来实现性能提升。在所提方法中，SFMs作为教师模型，利用纯净音频输入提取其多层隐藏表示。同时，我们引入一种多教师集成蒸馏策略，将音视频数据作为学生模型的输入，以实现更有效的知识迁移。为训练学生模型，在预训练阶段采用一种新型表示知识蒸馏损失函数，并在微调阶段继续应用该损失，从而进一步提升下游任务的性能。实验中，我们分别使用了自监督的SFMs（WavLM）和监督学习的SFMs（iFLYTEK-speech）作为教师模型。结果表明，所提出的方法在自动语音识别、视觉语音识别以及音视频语音识别等多项任务上，均达到或优于现有最先进基准模型的性能。此外，通过全面的消融实验以及对学习表示的可视化分析，进一步验证了所提方法的有效性。

源 PDF