
摘要
基于神经网络的端到端文本转语音(TTS)显著提高了合成语音的质量。著名的方法(例如,Tacotron 2)通常首先从文本生成梅尔频谱图,然后使用诸如WaveNet之类的声码器从梅尔频谱图合成语音。与传统的拼接式和统计参数方法相比,基于神经网络的端到端模型存在推理速度慢的问题,且合成的语音通常不够鲁棒(即某些单词会被跳过或重复),并且缺乏可控性(如语速或韵律控制)。在本研究中,我们提出了一种基于Transformer的新型前馈网络,用于并行生成TTS的梅尔频谱图。具体而言,我们从基于编码器-解码器的教师模型中提取注意力对齐信息,用于预测音素持续时间,该信息由长度调节器使用,以扩展源音素序列以匹配目标梅尔频谱图序列的长度,从而实现并行梅尔频谱图生成。在LJSpeech数据集上的实验表明,我们的并行模型在语音质量方面与自回归模型相当,在特别困难的情况下几乎消除了单词跳过和重复的问题,并且可以平滑地调整语速。最重要的是,与自回归Transformer TTS相比,我们的模型将梅尔频谱图生成的速度提高了270倍,并将端到端语音合成的速度提高了38倍。因此,我们将该模型命名为FastSpeech。
代码仓库
rishikksh20/LightSpeech
pytorch
GitHub 中提及
keonlee9420/STYLER
pytorch
keonlee9420/StyleSpeech
pytorch
tartunlp/transformertts
tf
GitHub 中提及
as-ideas/deepforcedaligner
pytorch
GitHub 中提及
dathudeptrai/TensorflowTTS
tf
GitHub 中提及
xcmyz/FastSpeech
pytorch
GitHub 中提及
cadia-lvl/fastspeech2
pytorch
GitHub 中提及
kdaip/stabletts
pytorch
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
as-ideas/TransformerTTS
tf
GitHub 中提及
ga642381/FastSpeech2
pytorch
GitHub 中提及
keonlee9420/PortaSpeech
pytorch
rishikksh20/FastSpeech2
pytorch
GitHub 中提及
ming024/FastSpeech2
pytorch
GitHub 中提及
bloodraven66/deepforcedaligner
pytorch
GitHub 中提及
erasedwalt/FastSpeech
pytorch
GitHub 中提及
jkyunnng/happyquokka_system_for_eeg_challenge
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| text-to-speech-synthesis-on-ljspeech | FastSpeech (Mel + WaveGlow) | Audio Quality MOS: 3.84 |
| text-to-speech-synthesis-on-ljspeech | Merlin | Audio Quality MOS: 2.4 |