HyperAI超神经

摘要

一个文本转语音合成系统通常由多个阶段组成，例如文本分析前端、声学模型和音频合成模块。构建这些组件往往需要广泛的专业知识，并且可能包含脆弱的设计选择。在本文中，我们介绍了Tacotron，一种端到端生成的文本转语音模型，该模型可以直接从字符合成语音。给定<文本，音频>对，该模型可以从零开始完全随机初始化进行训练。我们提出了一些关键的技术，以使序列到序列框架在这种具有挑战性的任务中表现良好。Tacotron在美国英语上的主观5分制平均意见得分为3.82，在自然度方面优于生产参数系统。此外，由于Tacotron在帧级别生成语音，因此其速度显著快于样本级别的自回归方法。

摘要

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Tacotron：迈向端到端语音合成

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Tacotron：迈向端到端语音合成

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Tacotron：迈向端到端语音合成

Yuxuan Wang; RJ Skerry-Ryan; Daisy Stanton; Yonghui Wu; Ron J. Weiss; Navdeep Jaitly; Zongheng Yang; Ying Xiao; Zhifeng Chen; Samy Bengio; Quoc Le; Yannis Agiomyrgiannakis; Rob Clark; Rif A. Saurous

摘要

用 AI 构建 AI

HyperAI Newsletters