4 个月前

LSTM网络的因式分解技巧

LSTM网络的因式分解技巧

摘要

我们提出了两种简化方法,用于减少大型长短期记忆(LSTM)网络的参数数量并加速其训练过程:第一种方法是“设计矩阵分解”(matrix factorization by design),即将LSTM矩阵分解为两个较小矩阵的乘积;第二种方法是LSTM矩阵、输入和状态的分区(partitioning),将其划分为独立的组。这两种方法使我们能够在显著减少循环神经网络(RNN)参数的同时,大幅加快大型LSTM网络的训练速度,并达到接近当前最佳水平的困惑度(perplexity)。

代码仓库

rdspring1/PyTorch_GBW_LM
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-one-billion-wordBIG G-LSTM-2
PPL: 36.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LSTM网络的因式分解技巧 | 论文 | HyperAI超神经