6 个月前

摘要

非自回归文本到语音（TTS）模型，如FastSpeech，能够在保持与先前自回归模型相当语音质量的前提下，实现显著更快的语音合成速度。FastSpeech模型的训练依赖于一个自回归教师模型进行音长预测（以提供更丰富的输入信息）以及知识蒸馏（以简化输出数据分布），从而缓解TTS中的“一对多”映射问题（即同一文本对应多种语音变化）。然而，FastSpeech仍存在若干局限：1）教师-学生蒸馏流程复杂且耗时；2）从教师模型中提取的音长信息精度不足，且由教师模型蒸馏得到的目标梅尔频谱图因数据简化而产生信息损失，这两方面均限制了语音质量的进一步提升。本文提出FastSpeech 2，针对FastSpeech的上述问题进行了改进，并通过以下两个关键机制更有效地解决TTS中的“一对多”映射问题：1）直接使用真实目标（ground-truth targets）进行模型训练，而非依赖教师模型生成的简化输出；2）引入更多语音变化信息（如基频、能量以及更精确的音长）作为条件输入。具体而言，我们从语音波形中提取音长、基频和能量，并在训练阶段直接将其作为条件输入；在推理阶段则使用模型预测的值。此外，我们进一步设计了FastSpeech 2s，这是首个尝试直接从文本并行生成语音波形的端到端模型，实现了完全端到端的推理优势。实验结果表明：1）FastSpeech 2相比FastSpeech实现了3倍的训练加速，而FastSpeech 2s则展现出更快的推理速度；2）FastSpeech 2和FastSpeech 2s在语音质量上均优于FastSpeech，且FastSpeech 2甚至可超越传统的自回归模型。音频样例可访问：https://speechresearch.github.io/fastspeech2/。

源 PDF