6 个月前

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

摘要

本文提出Flowtron：一种基于自回归流（autoregressive flow）的文本到语音合成生成网络，具备对语音变化和风格迁移的精细控制能力。Flowtron借鉴了IAF（Inference-Conditioned Autoregressive Flow）的思想，并对Tacotron架构进行了重构，以实现高质量且富有表现力的梅尔频谱图（mel-spectrogram）合成。通过最大化训练数据的似然函数进行优化，Flowtron的训练过程简单且稳定。该模型学习了一种可逆的数据映射机制，将输入映射至潜在空间，该潜在空间可被灵活操控，从而实现对语音合成多个方面的精细调控，包括音高、语调、语速、语流节奏以及口音等。主观平均意见分（MOS）测试结果表明，Flowtron在语音质量方面达到了当前先进文本到语音模型的水平。此外，本文还展示了在语音变化控制、样本间插值以及训练中见过与未见过说话人之间的风格迁移等方面的实验结果。相关代码与预训练模型将公开发布于 https://github.com/NVIDIA/flowtron。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Rafael Valle Kevin Shih Ryan Prenger Bryan Catanzaro

摘要

本文提出Flowtron：一种基于自回归流（autoregressive flow）的文本到语音合成生成网络，具备对语音变化和风格迁移的精细控制能力。Flowtron借鉴了IAF（Inference-Conditioned Autoregressive Flow）的思想，并对Tacotron架构进行了重构，以实现高质量且富有表现力的梅尔频谱图（mel-spectrogram）合成。通过最大化训练数据的似然函数进行优化，Flowtron的训练过程简单且稳定。该模型学习了一种可逆的数据映射机制，将输入映射至潜在空间，该潜在空间可被灵活操控，从而实现对语音合成多个方面的精细调控，包括音高、语调、语速、语流节奏以及口音等。主观平均意见分（MOS）测试结果表明，Flowtron在语音质量方面达到了当前先进文本到语音模型的水平。此外，本文还展示了在语音变化控制、样本间插值以及训练中见过与未见过说话人之间的风格迁移等方面的实验结果。相关代码与预训练模型将公开发布于 https://github.com/NVIDIA/flowtron。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供