HyperAIHyperAI

Command Palette

Search for a command to run...

R-Transformer:增强型循环神经网络 Transformer

Zhiwei Wang Yao Ma Zitao Liu Jiliang Tang

摘要

循环神经网络(Recurrent Neural Networks, RNN)长期以来一直是序列建模的主要选择。然而,它严重受到两个问题的困扰:难以捕捉非常长的依赖关系以及无法并行化顺序计算过程。因此,最近提出了许多基于卷积和注意力操作的非循环序列模型。特别是,具有多头注意力机制(multi-head attention)的模型如Transformer在多种序列建模任务中展示了极高的有效性,能够捕捉长距离依赖关系。尽管这些模型取得了成功,但它们缺乏必要的组件来建模序列中的局部结构,并且过度依赖位置嵌入(position embeddings),后者的效果有限且需要大量的设计工作。在本文中,我们提出了一种R-Transformer模型,该模型结合了RNN和多头注意力机制的优点,同时避免了各自的缺点。所提出的模型能够在不使用任何位置嵌入的情况下有效捕捉序列中的局部结构和全局长距离依赖关系。我们通过广泛的实验对R-Transformer进行了评估,实验数据来自多个领域,实证结果表明,在大多数任务中R-Transformer显著优于现有最先进方法。我们已将代码公开发布在 \url{https://github.com/DSE-MSU/R-transformer}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
R-Transformer:增强型循环神经网络 Transformer | 论文 | HyperAI超神经