6 个月前

多任务学习

音频和语音处理

Sanyuan Chen Chengyi Wang Zhengyang Chen Yu Wu Shujie Liu Zhuo Chen Jinyu Li Naoyuki Kanda Takuya Yoshioka Xiong Xiao

摘要

自监督学习（Self-supervised Learning, SSL）在语音识别任务中取得了显著成果，然而在其他语音处理任务中的探索仍相对有限。由于语音信号蕴含多维度信息，如说话人身份、副语言特征、语音内容等，因此为所有语音任务学习通用表征极具挑战性。为应对这一难题，我们提出了一种新型预训练模型——WavLM，旨在解决端到端的下游语音处理任务。WavLM在预训练阶段联合学习掩码语音预测与语音去噪任务。通过这一机制，WavLM不仅通过掩码语音预测任务保持了对语音内容的建模能力，还通过语音去噪增强了其在非自动语音识别（non-ASR）任务中的潜力。此外，WavLM在Transformer结构中引入了门控相对位置偏置（gated relative position bias），以更有效地捕捉输入语音序列的时序顺序关系。我们还将训练数据集规模从6万小时扩展至9.4万小时。实验结果表明，WavLM Large在SUPERB基准测试中达到了当前最优性能，并在多个代表性语音处理任务的基准上实现了显著提升。相关代码与预训练模型已开源，可访问 https://aka.ms/wavlm 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

音频和语音处理

Sanyuan Chen Chengyi Wang Zhengyang Chen Yu Wu Shujie Liu Zhuo Chen Jinyu Li Naoyuki Kanda Takuya Yoshioka Xiong Xiao

摘要

自监督学习（Self-supervised Learning, SSL）在语音识别任务中取得了显著成果，然而在其他语音处理任务中的探索仍相对有限。由于语音信号蕴含多维度信息，如说话人身份、副语言特征、语音内容等，因此为所有语音任务学习通用表征极具挑战性。为应对这一难题，我们提出了一种新型预训练模型——WavLM，旨在解决端到端的下游语音处理任务。WavLM在预训练阶段联合学习掩码语音预测与语音去噪任务。通过这一机制，WavLM不仅通过掩码语音预测任务保持了对语音内容的建模能力，还通过语音去噪增强了其在非自动语音识别（non-ASR）任务中的潜力。此外，WavLM在Transformer结构中引入了门控相对位置偏置（gated relative position bias），以更有效地捕捉输入语音序列的时序顺序关系。我们还将训练数据集规模从6万小时扩展至9.4万小时。实验结果表明，WavLM Large在SUPERB基准测试中达到了当前最优性能，并在多个代表性语音处理任务的基准上实现了显著提升。相关代码与预训练模型已开源，可访问 https://aka.ms/wavlm 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供