HyperAI超神经

摘要

本文介绍了WaveNet，一种用于生成原始音频波形的深度神经网络。该模型完全基于概率且自回归，每个音频样本的预测分布都依赖于所有先前的样本；然而，我们展示了它可以在每秒包含数万个样本的数据上高效训练。当应用于文本到语音转换时，WaveNet表现出当前最佳的性能，人类听众对其自然度的评价显著高于最好的参数化和拼接式系统（无论是英语还是普通话）。单个WaveNet可以以同等保真度捕捉许多不同说话者的声音特征，并通过条件输入说话者身份在它们之间切换。当训练用于音乐建模时，我们发现它能够生成新颖且往往非常逼真的音乐片段。此外，我们还展示了它可以作为判别模型使用，在音素识别方面取得了有希望的结果。

摘要

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WaveNet：一种用于原始音频的生成模型

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WaveNet：一种用于原始音频的生成模型

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

WaveNet：一种用于原始音频的生成模型

Aäron van den Oord Sander Dieleman Heiga Zen† Karen Simonyan Oriol Vinyals Alex Graves Nal Kalchbrenner Andrew Senior Koray Kavukcuoglu

摘要

用 AI 构建 AI

HyperAI Newsletters