7 个月前

摘要

基于神经网络的端到端文本转语音（TTS）显著提高了合成语音的质量。著名的方法（例如，Tacotron 2）通常首先从文本生成梅尔频谱图，然后使用诸如WaveNet之类的声码器从梅尔频谱图合成语音。与传统的拼接式和统计参数方法相比，基于神经网络的端到端模型存在推理速度慢的问题，且合成的语音通常不够鲁棒（即某些单词会被跳过或重复），并且缺乏可控性（如语速或韵律控制）。在本研究中，我们提出了一种基于Transformer的新型前馈网络，用于并行生成TTS的梅尔频谱图。具体而言，我们从基于编码器-解码器的教师模型中提取注意力对齐信息，用于预测音素持续时间，该信息由长度调节器使用，以扩展源音素序列以匹配目标梅尔频谱图序列的长度，从而实现并行梅尔频谱图生成。在LJSpeech数据集上的实验表明，我们的并行模型在语音质量方面与自回归模型相当，在特别困难的情况下几乎消除了单词跳过和重复的问题，并且可以平滑地调整语速。最重要的是，与自回归Transformer TTS相比，我们的模型将梅尔频谱图生成的速度提高了270倍，并将端到端语音合成的速度提高了38倍。因此，我们将该模型命名为FastSpeech。

源 PDF