3 个月前

FastSpeech 2:快速且高质量的端到端文本到语音生成

FastSpeech 2:快速且高质量的端到端文本到语音生成

摘要

非自回归文本到语音(TTS)模型,如FastSpeech,能够在保持与先前自回归模型相当语音质量的前提下,实现显著更快的语音合成速度。FastSpeech模型的训练依赖于一个自回归教师模型进行音长预测(以提供更丰富的输入信息)以及知识蒸馏(以简化输出数据分布),从而缓解TTS中的“一对多”映射问题(即同一文本对应多种语音变化)。然而,FastSpeech仍存在若干局限:1)教师-学生蒸馏流程复杂且耗时;2)从教师模型中提取的音长信息精度不足,且由教师模型蒸馏得到的目标梅尔频谱图因数据简化而产生信息损失,这两方面均限制了语音质量的进一步提升。本文提出FastSpeech 2,针对FastSpeech的上述问题进行了改进,并通过以下两个关键机制更有效地解决TTS中的“一对多”映射问题:1)直接使用真实目标(ground-truth targets)进行模型训练,而非依赖教师模型生成的简化输出;2)引入更多语音变化信息(如基频、能量以及更精确的音长)作为条件输入。具体而言,我们从语音波形中提取音长、基频和能量,并在训练阶段直接将其作为条件输入;在推理阶段则使用模型预测的值。此外,我们进一步设计了FastSpeech 2s,这是首个尝试直接从文本并行生成语音波形的端到端模型,实现了完全端到端的推理优势。实验结果表明:1)FastSpeech 2相比FastSpeech实现了3倍的训练加速,而FastSpeech 2s则展现出更快的推理速度;2)FastSpeech 2和FastSpeech 2s在语音质量上均优于FastSpeech,且FastSpeech 2甚至可超越传统的自回归模型。音频样例可访问:https://speechresearch.github.io/fastspeech2/。

代码仓库

roedoejet/fastspeech2
pytorch
GitHub 中提及
mtresearcher/FastSpeech2
pytorch
GitHub 中提及
TensorSpeech/TensorflowTTS
tf
GitHub 中提及
rishikksh20/LightSpeech
pytorch
GitHub 中提及
Munna-Manoj/Team6_FastSpeech2_TTS
pytorch
GitHub 中提及
tartunlp/transformertts
tf
GitHub 中提及
OlaWod/my-fastspeech2
pytorch
GitHub 中提及
dathudeptrai/TensorflowTTS
tf
GitHub 中提及
xcmyz/FastSpeech
pytorch
GitHub 中提及
ai-unicamp/tts-objective-metrics
pytorch
GitHub 中提及
cadia-lvl/fastspeech2
pytorch
GitHub 中提及
keonlee9420/DiffSinger
pytorch
GitHub 中提及
as-ideas/TransformerTTS
tf
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
ga642381/FastSpeech2
pytorch
GitHub 中提及
majidAdibian77/ResGrad
pytorch
GitHub 中提及
galaxycong/hpmdubbing
pytorch
GitHub 中提及
rishikksh20/FastSpeech2
pytorch
GitHub 中提及
keonlee9420/PortaSpeech
pytorch
GitHub 中提及
komyeongjin/specdiff-gan
pytorch
GitHub 中提及
keonlee9420/Expressive-FastSpeech2
pytorch
GitHub 中提及
ming024/FastSpeech2
pytorch
GitHub 中提及
keonlee9420/Comprehensive-E2E-TTS
pytorch
GitHub 中提及
shivammehta25/BetterFastSpeech2
pytorch
GitHub 中提及
KevinMIN95/StyleSpeech
pytorch
GitHub 中提及
wataru-nakata/fastspeech2-jsut
pytorch
GitHub 中提及
RayeRen/RayeRen
GitHub 中提及

基准测试

基准方法指标
text-to-speech-synthesis-on-ljspeechFastSpeech 2 + HiFiGAN
Audio Quality MOS: 4.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FastSpeech 2:快速且高质量的端到端文本到语音生成 | 论文 | HyperAI超神经