摘要

本文介绍了Tacotron 2，一种直接从文本合成语音的神经网络架构。该系统由一个循环序列到序列特征预测网络组成，该网络将字符嵌入映射为梅尔尺度频谱图，随后通过一个改进的WaveNet模型作为声码器，从这些频谱图中合成时域波形。我们的模型达到了平均意见得分（MOS）4.53，与专业录音的MOS 4.58相当。为了验证我们的设计选择，我们对系统的关键组件进行了消融研究，并评估了使用梅尔频谱图作为WaveNet输入而非语言学特征、持续时间和基频（ $F_0$ ）特征的影响。此外，我们还证明了使用紧凑的声学中间表示可以显著简化WaveNet架构。