
摘要
卷积操作仅限于局部,因此无法建模全局交互。然而,自注意力机制能够学习捕捉序列中的长距离依赖关系的表示。我们提出了一种结合卷积和自注意力机制的音频超分辨率网络架构。基于注意力的特征级线性调制(AFiLM)使用自注意力机制而不是递归神经网络来调制卷积模型的激活。大量实验表明,我们的模型在标准基准测试中优于现有方法。此外,该模型允许更多的并行化处理,从而显著加快训练速度。
代码仓库
ncarraz/AFILM
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| audio-super-resolution-on-piano-1 | U-Net + AFiLM | Log-Spectral Distance: 1.5 |
| audio-super-resolution-on-vctk-multi-speaker-1 | U-Net + AFiLM | Log-Spectral Distance: 1.7 |
| audio-super-resolution-on-voice-bank-corpus-1 | U-Net + AFiLM | Log-Spectral Distance: 2.3 |