
摘要
本文介绍了WaveNet,一种用于生成原始音频波形的深度神经网络。该模型完全基于概率且自回归,每个音频样本的预测分布都依赖于所有先前的样本;然而,我们展示了它可以在每秒包含数万个样本的数据上高效训练。当应用于文本到语音转换时,WaveNet表现出当前最佳的性能,人类听众对其自然度的评价显著高于最好的参数化和拼接式系统(无论是英语还是普通话)。单个WaveNet可以以同等保真度捕捉许多不同说话者的声音特征,并通过条件输入说话者身份在它们之间切换。当训练用于音乐建模时,我们发现它能够生成新颖且往往非常逼真的音乐片段。此外,我们还展示了它可以作为判别模型使用,在音素识别方面取得了有希望的结果。
代码仓库
outofculture/talk-like-me
pytorch
GitHub 中提及
ShuSQ/CCI_AP_PoseLoops
tf
GitHub 中提及
awslabs/gluon-ts
mxnet
GitHub 中提及
ZTianle/keras-tcn-solar
tf
GitHub 中提及
Talk2Levi/DJL
tf
GitHub 中提及
zll1996/TCN
tf
GitHub 中提及
zhong110020/keras-tcn
tf
GitHub 中提及
MSRDL/Deep4Cast
pytorch
GitHub 中提及
karpathy/makemore
pytorch
GitHub 中提及
sriharireddypusapati/speech-to-text-wavenet2
tf
GitHub 中提及
adityaagrawal7/speech-to-text-wavenet
tf
GitHub 中提及
peustr/wavenet
GitHub 中提及
r9y9/wavenet
GitHub 中提及
yebiny/DepthOfAnaesthesia_eeg
tf
GitHub 中提及
HaiFengZeng/clari_wavenet_vocoder
pytorch
GitHub 中提及
zhong110020/Tensorflow-TCN
tf
GitHub 中提及
PhilippeNguyen/keras_wavenet
tf
GitHub 中提及
ShotDownDiane/tcn-master
tf
GitHub 中提及
isadrtdinov/wavenet
pytorch
GitHub 中提及
AI-Huang/WaveNet
pytorch
GitHub 中提及
RamsteinWR/wavenet-master
tf
GitHub 中提及
freedombenLiu/speech-to-text-wavenet
tf
GitHub 中提及
Baichenjia/Tensorflow-TCN
tf
GitHub 中提及
albarji/neurowriter
tf
GitHub 中提及
TanUkkii007/wavenet
tf
GitHub 中提及
vicky-hnk/time-flex
pytorch
GitHub 中提及
otosense/slang
GitHub 中提及
randomrandom/deep-atrous-cnn-sentiment
tf
GitHub 中提及
pascalbakker/WaveNet-Implementation
tf
GitHub 中提及
thorwhalen/sla
GitHub 中提及
ashishpatel26/tcn-keras-Examples
pytorch
GitHub 中提及
imdatsolak/wavenet
tf
GitHub 中提及
DevonFulcher/CryptoPricePredictor
tf
GitHub 中提及
Shivendra-psc/speechbot
tf
GitHub 中提及
benmoseley/simple-wavenet
tf
GitHub 中提及
Chasm4359/ProTS
pytorch
GitHub 中提及
pbrandl/aNN_Audio
pytorch
GitHub 中提及
rampage644/wavenet
tf
GitHub 中提及
ShichengChen/WaveNetSeparateAudio
pytorch
GitHub 中提及
Salazar-99/Gravitational-WaveNet
GitHub 中提及
Gal1eo/DT2119
pytorch
GitHub 中提及
PeihaoChen/regnet
pytorch
GitHub 中提及
liguigui/speech-to-text-wavenet
tf
GitHub 中提及
thorwhalen/slang
GitHub 中提及
Vikas-Sony/speech-to-text
tf
GitHub 中提及
vincentherrmann/pytorch-wavenet
pytorch
GitHub 中提及
swasun/VQ-VAE-Speech
pytorch
GitHub 中提及
kingstarcraft/speech-to-text-wavenet2
tf
GitHub 中提及
basveeling/wavenet
tf
GitHub 中提及
ucsd-dsc-arts/dsc160-final-dsc160-final-group19
tf
GitHub 中提及
coreyoconnor/tensorderp
tf
GitHub 中提及
LucaHermes/lightweight-motion-forecasting
tf
GitHub 中提及
glakshay/Generating-audio-DL
tf
GitHub 中提及
WLM1ke/poptimizer
pytorch
GitHub 中提及
anandharaju/Basic_TCN
tf
GitHub 中提及
scpark20/universal-music-translation
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-synthesis-on-mandarin-chinese | LSTM-RNN parametric | Mean Opinion Score: 3.79 |
| speech-synthesis-on-mandarin-chinese | HMM-driven concatenative | Mean Opinion Score: 3.47 |
| speech-synthesis-on-mandarin-chinese | WaveNet (L+F) | Mean Opinion Score: 4.08 |
| speech-synthesis-on-north-american-english | LSTM-RNN parametric | Mean Opinion Score: 3.67 |
| speech-synthesis-on-north-american-english | WaveNet (L+F) | Mean Opinion Score: 4.21 |
| speech-synthesis-on-north-american-english | HMM-driven concatenative | Mean Opinion Score: 3.86 |