Sanyuan ChenChengyi WangZhengyang ChenYu WuShujie LiuZhuo ChenJinyu LiNaoyuki KandaTakuya YoshiokaXiong XiaoJian WuLong ZhouShuo RenYanmin QianYao QianJian WuMichael ZengXiangzhan YuFuru Wei

摘要
自监督学习(Self-supervised Learning, SSL)在语音识别任务中取得了显著成果,然而在其他语音处理任务中的探索仍相对有限。由于语音信号蕴含多维度信息,如说话人身份、副语言特征、语音内容等,因此为所有语音任务学习通用表征极具挑战性。为应对这一难题,我们提出了一种新型预训练模型——WavLM,旨在解决端到端的下游语音处理任务。WavLM在预训练阶段联合学习掩码语音预测与语音去噪任务。通过这一机制,WavLM不仅通过掩码语音预测任务保持了对语音内容的建模能力,还通过语音去噪增强了其在非自动语音识别(non-ASR)任务中的潜力。此外,WavLM在Transformer结构中引入了门控相对位置偏置(gated relative position bias),以更有效地捕捉输入语音序列的时序顺序关系。我们还将训练数据集规模从6万小时扩展至9.4万小时。实验结果表明,WavLM Large在SUPERB基准测试中达到了当前最优性能,并在多个代表性语音处理任务的基准上实现了显著提升。相关代码与预训练模型已开源,可访问 https://aka.ms/wavlm 获取。
代码仓库
nyrahealth/crisperwhisper
pytorch
GitHub 中提及
cywang97/unispeech
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/1/wavlm
mindspore
MS-P3/code7/tree/main/wavlm
mindspore
kyutai-labs/moshi
pytorch
GitHub 中提及
sanyuan-chen/unispeech
pytorch
GitHub 中提及
microsoft/unilm
官方
pytorch
GitHub 中提及
microsoft/unispeech
pytorch
GitHub 中提及
olawod/freevc
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-recognition-on-callhome-en | WavLM Large & EEND-vector clustering | Word Error Rate (WER): 10.35 |
| speech-recognition-on-librispeech-test-clean | WavLM Large | Word Error Rate (WER): 1.8 |
| speech-recognition-on-librispeech-test-other | WavLM Large | Word Error Rate (WER): 3.2 |