4 个月前

WaveNet:一种用于原始音频的生成模型

WaveNet:一种用于原始音频的生成模型

摘要

本文介绍了WaveNet,一种用于生成原始音频波形的深度神经网络。该模型完全基于概率且自回归,每个音频样本的预测分布都依赖于所有先前的样本;然而,我们展示了它可以在每秒包含数万个样本的数据上高效训练。当应用于文本到语音转换时,WaveNet表现出当前最佳的性能,人类听众对其自然度的评价显著高于最好的参数化和拼接式系统(无论是英语还是普通话)。单个WaveNet可以以同等保真度捕捉许多不同说话者的声音特征,并通过条件输入说话者身份在它们之间切换。当训练用于音乐建模时,我们发现它能够生成新颖且往往非常逼真的音乐片段。此外,我们还展示了它可以作为判别模型使用,在音素识别方面取得了有希望的结果。

代码仓库

outofculture/talk-like-me
pytorch
GitHub 中提及
ShuSQ/CCI_AP_PoseLoops
tf
GitHub 中提及
awslabs/gluon-ts
mxnet
GitHub 中提及
ZTianle/keras-tcn-solar
tf
GitHub 中提及
Talk2Levi/DJL
tf
GitHub 中提及
zll1996/TCN
tf
GitHub 中提及
zhong110020/keras-tcn
tf
GitHub 中提及
MSRDL/Deep4Cast
pytorch
GitHub 中提及
karpathy/makemore
pytorch
GitHub 中提及
peustr/wavenet
GitHub 中提及
r9y9/wavenet
GitHub 中提及
HaiFengZeng/clari_wavenet_vocoder
pytorch
GitHub 中提及
zhong110020/Tensorflow-TCN
tf
GitHub 中提及
ShotDownDiane/tcn-master
tf
GitHub 中提及
isadrtdinov/wavenet
pytorch
GitHub 中提及
AI-Huang/WaveNet
pytorch
GitHub 中提及
RamsteinWR/wavenet-master
tf
GitHub 中提及
Baichenjia/Tensorflow-TCN
tf
GitHub 中提及
albarji/neurowriter
tf
GitHub 中提及
TanUkkii007/wavenet
tf
GitHub 中提及
vicky-hnk/time-flex
pytorch
GitHub 中提及
otosense/slang
GitHub 中提及
thorwhalen/sla
GitHub 中提及
ashishpatel26/tcn-keras-Examples
pytorch
GitHub 中提及
imdatsolak/wavenet
tf
GitHub 中提及
Shivendra-psc/speechbot
tf
GitHub 中提及
benmoseley/simple-wavenet
tf
GitHub 中提及
Chasm4359/ProTS
pytorch
GitHub 中提及
pbrandl/aNN_Audio
pytorch
GitHub 中提及
rampage644/wavenet
tf
GitHub 中提及
ShichengChen/WaveNetSeparateAudio
pytorch
GitHub 中提及
Gal1eo/DT2119
pytorch
GitHub 中提及
PeihaoChen/regnet
pytorch
GitHub 中提及
thorwhalen/slang
GitHub 中提及
Vikas-Sony/speech-to-text
tf
GitHub 中提及
vincentherrmann/pytorch-wavenet
pytorch
GitHub 中提及
swasun/VQ-VAE-Speech
pytorch
GitHub 中提及
basveeling/wavenet
tf
GitHub 中提及
coreyoconnor/tensorderp
tf
GitHub 中提及
WLM1ke/poptimizer
pytorch
GitHub 中提及
anandharaju/Basic_TCN
tf
GitHub 中提及

基准测试

基准方法指标
speech-synthesis-on-mandarin-chineseLSTM-RNN parametric
Mean Opinion Score: 3.79
speech-synthesis-on-mandarin-chineseHMM-driven concatenative
Mean Opinion Score: 3.47
speech-synthesis-on-mandarin-chineseWaveNet (L+F)
Mean Opinion Score: 4.08
speech-synthesis-on-north-american-englishLSTM-RNN parametric
Mean Opinion Score: 3.67
speech-synthesis-on-north-american-englishWaveNet (L+F)
Mean Opinion Score: 4.21
speech-synthesis-on-north-american-englishHMM-driven concatenative
Mean Opinion Score: 3.86

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
WaveNet:一种用于原始音频的生成模型 | 论文 | HyperAI超神经