HyperAIHyperAI

Command Palette

Search for a command to run...

WaveNet:一种用于原始音频的生成模型

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

本文介绍了WaveNet,一种用于生成原始音频波形的深度神经网络。该模型完全基于概率且自回归,每个音频样本的预测分布都依赖于所有先前的样本;然而,我们展示了它可以在每秒包含数万个样本的数据上高效训练。当应用于文本到语音转换时,WaveNet表现出当前最佳的性能,人类听众对其自然度的评价显著高于最好的参数化和拼接式系统(无论是英语还是普通话)。单个WaveNet可以以同等保真度捕捉许多不同说话者的声音特征,并通过条件输入说话者身份在它们之间切换。当训练用于音乐建模时,我们发现它能够生成新颖且往往非常逼真的音乐片段。此外,我们还展示了它可以作为判别模型使用,在音素识别方面取得了有希望的结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供