3 个月前

单头注意力RNN:停止用你的大脑思考

单头注意力RNN:停止用你的大脑思考

摘要

当前语言建模领域的主流方法,无一不沉迷于我童年时期的电视节目——即“变形金刚”与“芝麻街”。从“这个Transformer”到“那个Transformer”,再到此处堆叠如篝火般密集的GPU-TPU-类脑芯片级硅基计算单元。而我们则选择了一条更为懒散、却经久验证的老路,辅以一个受密码学启发的花哨缩写:单头注意力循环神经网络(Single Headed Attention RNN,简称 SHA-RNN)。作者唯一的目标,是证明:倘若我们当年痴迷的不是如今的术语与成果,而是另一个稍有不同的缩写、稍有不同的结果,整个领域或许早已走上截然不同的发展路径。我们仅基于此前表现稳健的纯LSTM语言模型,便成功将其性能推进至与当前最先进的字节级语言模型在enwik8数据集上相差无几的水平。本研究未经历任何密集的超参数调优,全程运行于一台普通桌面电脑之上,导致作者那间位于旧金山夏季的狭小公寓变得酷热难耐。最终结果在单张GPU上仅需约24小时即可复现——毕竟作者实在等不及了。此外,该注意力机制还可轻松扩展至超长上下文,且计算开销极低。芝麻街,你输了。

代码仓库

Smerity/sha-rnn
官方
pytorch
GitHub 中提及
Tobias-K93/media-bias-prediction
pytorch
GitHub 中提及
alisafaya/SHA-RNN.jl
pytorch
GitHub 中提及
floleuerer/fastai_ulmfit
GitHub 中提及
saattrupdan/scholarly
tf
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-enwiki8SHA-LSTM (4 layers, h=1024, no attention head)
Bit per Character (BPC): 1.33
Number of params: 51M
language-modelling-on-enwiki8SHA-RNN (4 layers, h=1024, single attention head)
Bit per Character (BPC): 1.076
Number of params: 52M
language-modelling-on-enwiki8SHA-RNN (4 layers, h=1024, attention head per layer)
Bit per Character (BPC): 1.068
Number of params: 54M

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
单头注意力RNN:停止用你的大脑思考 | 论文 | HyperAI超神经