4 个月前

R-Transformer:增强型循环神经网络变压器

R-Transformer:增强型循环神经网络变压器

摘要

循环神经网络(Recurrent Neural Networks, RNN)长期以来一直是序列建模的主要选择。然而,它严重受到两个问题的困扰:难以捕捉非常长的依赖关系以及无法并行化顺序计算过程。因此,最近提出了许多基于卷积和注意力操作的非循环序列模型。特别是,具有多头注意力机制(multi-head attention)的模型如Transformer在多种序列建模任务中展示了极高的有效性,能够捕捉长距离依赖关系。尽管这些模型取得了成功,但它们缺乏必要的组件来建模序列中的局部结构,并且过度依赖位置嵌入(position embeddings),后者的效果有限且需要大量的设计工作。在本文中,我们提出了一种R-Transformer模型,该模型结合了RNN和多头注意力机制的优点,同时避免了各自的缺点。所提出的模型能够在不使用任何位置嵌入的情况下有效捕捉序列中的局部结构和全局长距离依赖关系。我们通过广泛的实验对R-Transformer进行了评估,实验数据来自多个领域,实证结果表明,在大多数任务中R-Transformer显著优于现有最先进方法。我们已将代码公开发布在 \url{https://github.com/DSE-MSU/R-transformer}。

代码仓库

DSE-MSU/R-transformer
官方
pytorch
GitHub 中提及
sfox14/butterfly-r-transformer
pytorch
GitHub 中提及

基准测试

基准方法指标
language-modelling-on-penn-treebank-characterR-Transformer
Bit per Character (BPC): 1.24
language-modelling-on-penn-treebank-wordR-Transformer
Test perplexity: 84.38
music-modeling-on-nottinghamTransformer
NLL: 3.34
music-modeling-on-nottinghamR-Transformer
NLL: 2.37
sequential-image-classification-on-sequentialR-Transformer
Unpermuted Accuracy: 99.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
R-Transformer:增强型循环神经网络变压器 | 论文 | HyperAI超神经