
摘要
一个文本转语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件往往需要广泛的专业知识,并且可能包含脆弱的设计选择。在本文中,我们介绍了Tacotron,一种端到端生成的文本转语音模型,该模型可以直接从字符合成语音。给定<文本,音频>对,该模型可以从零开始完全随机初始化进行训练。我们提出了一些关键的技术,以使序列到序列框架在这种具有挑战性的任务中表现良好。Tacotron在美国英语上的主观5分制平均意见得分为3.82,在自然度方面优于生产参数系统。此外,由于Tacotron在帧级别生成语音,因此其速度显著快于样本级别的自回归方法。
代码仓库
dipjyoti92/SC-WaveRNN
pytorch
GitHub 中提及
ShuSQ/CCI_AP_PoseLoops
tf
GitHub 中提及
cchinchristopherj/Concert-of-Whales
GitHub 中提及
r9y9/tacotron_pytorch
pytorch
GitHub 中提及
OlaWod/my-tacotron2
pytorch
GitHub 中提及
anandaswarup/rnn-tts
pytorch
GitHub 中提及
keithito/tacotron
tf
GitHub 中提及
vohoaiviet/voice-vector
tf
GitHub 中提及
shortpoet/Final-Project
GitHub 中提及
thethirdwheel/malumagraph
GitHub 中提及
anandaswarup/TTS
pytorch
GitHub 中提及
CorentinJ/Real-Time-Voice-Cloning
tf
GitHub 中提及
tigthor/Voice-Cloning-AI
pytorch
GitHub 中提及
izzajalandoni/tts_models
pytorch
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
dipjyoti92/TTS-Style-Transfer
pytorch
GitHub 中提及
racinmat/lecture-generator
tf
GitHub 中提及
barronalex/Tacotron
tf
GitHub 中提及
andabi/deep-voice-conversion
tf
GitHub 中提及
0fengzi0/tacotron
tf
GitHub 中提及
fatchord/WaveRNN
pytorch
GitHub 中提及
mozilla/TTS
pytorch
GitHub 中提及
IvKosar/text2speech
pytorch
GitHub 中提及
andabi/voice-vector
tf
GitHub 中提及
mindmapper15/Voice-Converter
tf
GitHub 中提及
thuhcsi/tacotron
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-synthesis-on-north-american-english | Tacotron | Mean Opinion Score: 4.001 |