
摘要
本文提出了一种基于逐个生成音频样本的无条件音频生成新模型。我们展示了该模型通过结合无记忆模块(即自回归多层感知机)和有状态递归神经网络,在分层结构中能够捕捉到三个不同性质数据集中时间序列在很长时段内的变化来源。人类对生成样本的评估表明,我们的模型优于竞争模型。此外,我们还分析了模型的每个组件如何贡献于所展示的性能。
代码仓库
cchinchristopherj/Concert-of-Whales
GitHub 中提及
deepsound-project/samplernn-pytorch
pytorch
GitHub 中提及
soroushmehr/sampleRNN_ICLR2017
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| speech-synthesis-on-blizzard-challenge-2013 | SampleRNN (3-tier) | NLL: 1.387 |
| speech-synthesis-on-blizzard-challenge-2013 | SampleRNN (2-tier) | NLL: 1.392 |