3 个月前

Flowtron:一种基于自回归流的文本到语音合成生成网络

Flowtron:一种基于自回归流的文本到语音合成生成网络

摘要

本文提出Flowtron:一种基于自回归流(autoregressive flow)的文本到语音合成生成网络,具备对语音变化和风格迁移的精细控制能力。Flowtron借鉴了IAF(Inference-Conditioned Autoregressive Flow)的思想,并对Tacotron架构进行了重构,以实现高质量且富有表现力的梅尔频谱图(mel-spectrogram)合成。通过最大化训练数据的似然函数进行优化,Flowtron的训练过程简单且稳定。该模型学习了一种可逆的数据映射机制,将输入映射至潜在空间,该潜在空间可被灵活操控,从而实现对语音合成多个方面的精细调控,包括音高、语调、语速、语流节奏以及口音等。主观平均意见分(MOS)测试结果表明,Flowtron在语音质量方面达到了当前先进文本到语音模型的水平。此外,本文还展示了在语音变化控制、样本间插值以及训练中见过与未见过说话人之间的风格迁移等方面的实验结果。相关代码与预训练模型将公开发布于 https://github.com/NVIDIA/flowtron。

代码仓库

NVIDIA/radtts
pytorch
GitHub 中提及
NVIDIA/flowtron
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-speech-synthesis-on-ljspeechFlowtron
Pleasantness MOS: 3.665
text-to-speech-synthesis-on-ljspeechTacotron 2
Pleasantness MOS: 3.521

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Flowtron:一种基于自回归流的文本到语音合成生成网络 | 论文 | HyperAI超神经