
摘要
最近,提出了一种新的递归神经网络(RNN)——Legendre记忆单元(LMU),并在多个基准数据集上展示了其达到最先进水平的性能。本文利用LMU中的线性时不变(LTI)记忆组件构建了一个简化变体,该变体在训练过程中可以并行化(但在推理过程中仍作为RNN执行),从而克服了在GPU上训练RNN的一个众所周知的限制。我们证明了这种有助于并行化的重新表述方法可以普遍应用于任何具有线性递归组件的深度网络,使得训练速度最高可提升200倍。其次,为了验证其有效性,我们将该模型的性能与原始LMU以及多种已发表的LSTM和Transformer网络在七个基准测试中进行了比较,这些测试涵盖了从psMNIST到情感分析再到机器翻译等多个领域。结果表明,我们的模型在所有数据集上均表现出优越的性能,并且通常使用的参数更少。例如,我们的LMU在psMNIST上创造了新的最先进结果,并且在IMDB情感分析任务中使用的参数量仅为DistilBERT和LSTM模型的一半,同时性能优于它们。
代码仓库
hrshtv/pytorch-lmu
pytorch
GitHub 中提及
elisejiuqizhang/jax-lmu
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| sentiment-analysis-on-imdb | Modified LMU (34M) | Accuracy: 93.20 |
| sequential-image-classification-on-sequential | Modified LMU (165k) | Permuted Accuracy: 98.49% |