3 个月前

Glow-TTS:通过单调对齐搜索实现的文本到语音生成流

Glow-TTS:通过单调对齐搜索实现的文本到语音生成流

摘要

近年来,文本到语音(Text-to-Speech, TTS)模型如FastSpeech和ParaNet被提出,旨在并行地从文本生成梅尔频谱图(mel-spectrograms)。尽管这类并行TTS模型具有显著优势,但在训练过程中仍需依赖自回归TTS模型提供的外部对齐器(external aligner)进行指导。在本工作中,我们提出Glow-TTS,一种基于流模型(flow-based generative model)的并行TTS框架,无需任何外部对齐器。通过结合流模型的特性与动态规划(dynamic programming)的优势,该模型能够自主搜索文本与语音潜在表示之间的最可能单调对齐(monotonic alignment)。我们证明,强制实施硬性单调对齐可显著提升TTS系统的鲁棒性,使其能够有效处理长语音样本;同时,采用生成流模型可实现快速、多样且可控的语音合成。在语音合成阶段,Glow-TTS相比自回归模型Tacotron 2实现了数量级的加速,同时保持了相当的语音质量。此外,我们还展示了该模型可轻松扩展至多说话人(multi-speaker)场景。

代码仓库

ankurdhuriya/multispeaker-glow-tts
pytorch
GitHub 中提及
revsic/tf-glow-tts
tf
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
jaywalnut310/glow-tts
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-speech-synthesis-on-ljspeechGlow-TTS + HiFiGAN
Audio Quality MOS: 4.34

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Glow-TTS:通过单调对齐搜索实现的文本到语音生成流 | 论文 | HyperAI超神经