
摘要
我们提出了一种称为长表达记忆(Long Expressive Memory, LEM)的新方法,用于学习长期序列依赖关系。LEM 是基于梯度的方法,能够高效处理具有非常长期依赖关系的序列任务,并且具有足够的表达能力,可以学习复杂的输入输出映射。为了推导 LEM,我们考虑了一个多尺度常微分方程系统及其适当的时间离散化。对于 LEM,我们推导了严格的边界条件,以展示其缓解梯度爆炸和梯度消失问题的能力,这是基于梯度的递归序列学习方法所面临的一个众所周知的挑战。此外,我们还证明了 LEM 能够高精度地逼近一大类动态系统。我们的实证结果涵盖了从图像分类和时间序列分类到动态系统预测、语音识别和语言建模等多个领域,表明 LEM 在性能上优于当前最先进的递归神经网络、门控循环单元和长短时记忆模型。
代码仓库
tk-rusch/lem
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sequential-image-classification-on-noise | LEM | % Test Accuracy: 60.5 |
| sequential-image-classification-on-sequential | LEM | Permuted Accuracy: 96.6% Unpermuted Accuracy: 99.5% |
| time-series-classification-on-eigenworms | LEM | % Test Accuracy: 92.3 |