8 个月前

自然语言处理

自然语言处理

Narsimha Chilkuri Chris Eliasmith

摘要

最近，提出了一种新的递归神经网络（RNN）——Legendre记忆单元（LMU），并在多个基准数据集上展示了其达到最先进水平的性能。本文利用LMU中的线性时不变（LTI）记忆组件构建了一个简化变体，该变体在训练过程中可以并行化（但在推理过程中仍作为RNN执行），从而克服了在GPU上训练RNN的一个众所周知的限制。我们证明了这种有助于并行化的重新表述方法可以普遍应用于任何具有线性递归组件的深度网络，使得训练速度最高可提升200倍。其次，为了验证其有效性，我们将该模型的性能与原始LMU以及多种已发表的LSTM和Transformer网络在七个基准测试中进行了比较，这些测试涵盖了从psMNIST到情感分析再到机器翻译等多个领域。结果表明，我们的模型在所有数据集上均表现出优越的性能，并且通常使用的参数更少。例如，我们的LMU在psMNIST上创造了新的最先进结果，并且在IMDB情感分析任务中使用的参数量仅为DistilBERT和LSTM模型的一半，同时性能优于它们。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Narsimha Chilkuri Chris Eliasmith

摘要

最近，提出了一种新的递归神经网络（RNN）——Legendre记忆单元（LMU），并在多个基准数据集上展示了其达到最先进水平的性能。本文利用LMU中的线性时不变（LTI）记忆组件构建了一个简化变体，该变体在训练过程中可以并行化（但在推理过程中仍作为RNN执行），从而克服了在GPU上训练RNN的一个众所周知的限制。我们证明了这种有助于并行化的重新表述方法可以普遍应用于任何具有线性递归组件的深度网络，使得训练速度最高可提升200倍。其次，为了验证其有效性，我们将该模型的性能与原始LMU以及多种已发表的LSTM和Transformer网络在七个基准测试中进行了比较，这些测试涵盖了从psMNIST到情感分析再到机器翻译等多个领域。结果表明，我们的模型在所有数据集上均表现出优越的性能，并且通常使用的参数更少。例如，我们的LMU在psMNIST上创造了新的最先进结果，并且在IMDB情感分析任务中使用的参数量仅为DistilBERT和LSTM模型的一半，同时性能优于它们。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

并行化勒让德记忆单元训练 | 论文 | HyperAI超神经