4 个月前

FastSpeech:快速、鲁棒且可控的文本到语音合成

FastSpeech:快速、鲁棒且可控的文本到语音合成

摘要

基于神经网络的端到端文本转语音(TTS)显著提高了合成语音的质量。著名的方法(例如,Tacotron 2)通常首先从文本生成梅尔频谱图,然后使用诸如WaveNet之类的声码器从梅尔频谱图合成语音。与传统的拼接式和统计参数方法相比,基于神经网络的端到端模型存在推理速度慢的问题,且合成的语音通常不够鲁棒(即某些单词会被跳过或重复),并且缺乏可控性(如语速或韵律控制)。在本研究中,我们提出了一种基于Transformer的新型前馈网络,用于并行生成TTS的梅尔频谱图。具体而言,我们从基于编码器-解码器的教师模型中提取注意力对齐信息,用于预测音素持续时间,该信息由长度调节器使用,以扩展源音素序列以匹配目标梅尔频谱图序列的长度,从而实现并行梅尔频谱图生成。在LJSpeech数据集上的实验表明,我们的并行模型在语音质量方面与自回归模型相当,在特别困难的情况下几乎消除了单词跳过和重复的问题,并且可以平滑地调整语速。最重要的是,与自回归Transformer TTS相比,我们的模型将梅尔频谱图生成的速度提高了270倍,并将端到端语音合成的速度提高了38倍。因此,我们将该模型命名为FastSpeech。

代码仓库

rishikksh20/LightSpeech
pytorch
GitHub 中提及
tartunlp/transformertts
tf
GitHub 中提及
as-ideas/deepforcedaligner
pytorch
GitHub 中提及
dathudeptrai/TensorflowTTS
tf
GitHub 中提及
xcmyz/FastSpeech
pytorch
GitHub 中提及
cadia-lvl/fastspeech2
pytorch
GitHub 中提及
kdaip/stabletts
pytorch
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
as-ideas/TransformerTTS
tf
GitHub 中提及
ga642381/FastSpeech2
pytorch
GitHub 中提及
rishikksh20/FastSpeech2
pytorch
GitHub 中提及
ming024/FastSpeech2
pytorch
GitHub 中提及
bloodraven66/deepforcedaligner
pytorch
GitHub 中提及
erasedwalt/FastSpeech
pytorch
GitHub 中提及

基准测试

基准方法指标
text-to-speech-synthesis-on-ljspeechFastSpeech (Mel + WaveGlow)
Audio Quality MOS: 3.84
text-to-speech-synthesis-on-ljspeechMerlin
Audio Quality MOS: 2.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FastSpeech:快速、鲁棒且可控的文本到语音合成 | 论文 | HyperAI超神经