
摘要
卷积神经网络(CNN)使用扩张滤波器,如Wavenet或时间卷积网络(TCN),在各种序列建模任务中已经展现出良好的效果。然而,高效地建模这些序列中的长程依赖关系仍然具有挑战性。尽管这些模型的接收域随着层数的增加呈指数增长,但在每一层对非常长的特征序列进行卷积计算既耗时又占用大量内存,这在实际应用中限制了较长接收域的使用。为了提高效率,我们利用了“慢特征”假设,即许多感兴趣的特征随时间变化较为缓慢。为此,我们采用了U-Net架构来在多个时间尺度上计算特征,并通过使卷积具有因果性将其适应到自回归场景中。我们将该模型(“Seq-U-Net”)应用于多种任务,包括语言生成和音频生成。与TCN和Wavenet相比,我们的网络在所有任务中均能显著节省内存和计算时间,在音频生成实验中训练和推理速度提高了超过4倍,同时在所有任务中达到了相当的性能水平。
代码仓库
f90/Seq-U-Net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| language-modelling-on-penn-treebank-character | TCN | Bit per Character (BPC): 1.31 Number of params: 5.9M |
| language-modelling-on-penn-treebank-character | Seq-U-Net | Bit per Character (BPC): 1.3 Number of params: 5.9M |
| language-modelling-on-penn-treebank-word | TCN | Params: 14.7M Test perplexity: 108.47 |
| language-modelling-on-penn-treebank-word | Seq-U-Net | Params: 14.9M Test perplexity: 107.95 |
| music-modeling-on-jsb-chorales | TCN | NLL: 8.154 Parameters: 534K |
| music-modeling-on-jsb-chorales | Seq-U-Net | NLL: 8.173 Parameters: 522K |
| music-modeling-on-nottingham | Seq-U-Net | NLL: 2.97 Parameters: 1.7M |
| music-modeling-on-nottingham | TCN | NLL: 2.783 Parameters: 1.7M |