3 个月前

Grad-TTS:一种用于文本到语音的扩散概率模型

Grad-TTS:一种用于文本到语音的扩散概率模型

摘要

近期,去噪扩散概率模型(denoising diffusion probabilistic models)与生成得分匹配(generative score matching)在建模复杂数据分布方面展现出巨大潜力。同时,随机微积分为这些技术提供了统一的理论视角,使得灵活的推理方案成为可能。本文提出一种新型文本到语音(text-to-speech, TTS)模型——Grad-TTS,其采用基于得分的解码器,通过逐步将编码器预测的噪声进行转化,并借助单调对齐搜索(Monotonic Alignment Search)与文本输入对齐,生成梅尔频谱图(mel-spectrograms)。基于随机微分方程的框架使我们能够将传统的扩散概率模型推广至从具有不同参数的噪声中重构数据的情形,并通过显式控制语音质量与推理速度之间的权衡,实现灵活的重建过程。主观人类评估结果表明,Grad-TTS在平均意见得分(Mean Opinion Score, MOS)方面与当前最先进的文本到语音方法具有竞争力。相关代码即将开源发布。

代码仓库

huawei-noah/Speech-Backbones
官方
pytorch
GitHub 中提及
WelkinYang/GradTTS
pytorch
GitHub 中提及
playvoice/grad-svc
pytorch
GitHub 中提及
majidAdibian77/ResGrad
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-speech-synthesis-on-ljspeechGrad-TTS + HiFiGAN (1000 steps)
Audio Quality MOS: 4.37

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Grad-TTS:一种用于文本到语音的扩散概率模型 | 论文 | HyperAI超神经