4 个月前

Tacotron:迈向端到端语音合成

Tacotron:迈向端到端语音合成

摘要

一个文本转语音合成系统通常由多个阶段组成,例如文本分析前端、声学模型和音频合成模块。构建这些组件往往需要广泛的专业知识,并且可能包含脆弱的设计选择。在本文中,我们介绍了Tacotron,一种端到端生成的文本转语音模型,该模型可以直接从字符合成语音。给定<文本,音频>对,该模型可以从零开始完全随机初始化进行训练。我们提出了一些关键的技术,以使序列到序列框架在这种具有挑战性的任务中表现良好。Tacotron在美国英语上的主观5分制平均意见得分为3.82,在自然度方面优于生产参数系统。此外,由于Tacotron在帧级别生成语音,因此其速度显著快于样本级别的自回归方法。

代码仓库

dipjyoti92/SC-WaveRNN
pytorch
GitHub 中提及
ShuSQ/CCI_AP_PoseLoops
tf
GitHub 中提及
r9y9/tacotron_pytorch
pytorch
GitHub 中提及
OlaWod/my-tacotron2
pytorch
GitHub 中提及
anandaswarup/rnn-tts
pytorch
GitHub 中提及
keithito/tacotron
tf
GitHub 中提及
vohoaiviet/voice-vector
tf
GitHub 中提及
shortpoet/Final-Project
GitHub 中提及
anandaswarup/TTS
pytorch
GitHub 中提及
tigthor/Voice-Cloning-AI
pytorch
GitHub 中提及
izzajalandoni/tts_models
pytorch
GitHub 中提及
coqui-ai/TTS
pytorch
GitHub 中提及
dipjyoti92/TTS-Style-Transfer
pytorch
GitHub 中提及
racinmat/lecture-generator
tf
GitHub 中提及
barronalex/Tacotron
tf
GitHub 中提及
0fengzi0/tacotron
tf
GitHub 中提及
fatchord/WaveRNN
pytorch
GitHub 中提及
mozilla/TTS
pytorch
GitHub 中提及
IvKosar/text2speech
pytorch
GitHub 中提及
andabi/voice-vector
tf
GitHub 中提及
thuhcsi/tacotron
pytorch
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-north-american-englishTacotron
Mean Opinion Score: 4.001

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Tacotron:迈向端到端语音合成 | 论文 | HyperAI超神经