7 个月前

自然语言处理

自然语言处理

Rong Yang Qian Yu Ruoming Pang Zihang Dai Yonghui Wu Quoc V. Le

摘要

Transformer 模型在语言建模中具有学习长距离依赖关系的潜力，但受到固定长度上下文的限制。我们提出了一种新的神经架构——Transformer-XL，该架构能够在不破坏时间连贯性的情况下学习超出固定长度的依赖关系。它由段落级别的循环机制和一种新颖的位置编码方案组成。我们的方法不仅能够捕捉更长距离的依赖关系，还解决了上下文碎片化问题。因此，与RNN相比，Transformer-XL学习到的依赖关系长度增加了80%，而与普通的Transformer相比则增加了450%；在短序列和长序列上均表现出更好的性能，并且在评估过程中比普通Transformer快1800多倍。值得注意的是，我们在enwiki8数据集上的bpc（每字符位数）/困惑度达到了0.99的新纪录，在text8数据集上达到1.08，在WikiText-103数据集上达到18.3，在One Billion Word数据集上达到21.8，在Penn Treebank数据集上达到54.5（未进行微调）。仅在WikiText-103数据集上训练时，Transformer-XL就能够生成合理连贯、包含数千个标记的新文本文章。我们的代码、预训练模型和超参数在TensorFlow和PyTorch中均可获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

自然语言处理

Rong Yang Qian Yu Ruoming Pang Zihang Dai Yonghui Wu Quoc V. Le

摘要

Transformer 模型在语言建模中具有学习长距离依赖关系的潜力，但受到固定长度上下文的限制。我们提出了一种新的神经架构——Transformer-XL，该架构能够在不破坏时间连贯性的情况下学习超出固定长度的依赖关系。它由段落级别的循环机制和一种新颖的位置编码方案组成。我们的方法不仅能够捕捉更长距离的依赖关系，还解决了上下文碎片化问题。因此，与RNN相比，Transformer-XL学习到的依赖关系长度增加了80%，而与普通的Transformer相比则增加了450%；在短序列和长序列上均表现出更好的性能，并且在评估过程中比普通Transformer快1800多倍。值得注意的是，我们在enwiki8数据集上的bpc（每字符位数）/困惑度达到了0.99的新纪录，在text8数据集上达到1.08，在WikiText-103数据集上达到18.3，在One Billion Word数据集上达到21.8，在Penn Treebank数据集上达到54.5（未进行微调）。仅在WikiText-103数据集上训练时，Transformer-XL就能够生成合理连贯、包含数千个标记的新文本文章。我们的代码、预训练模型和超参数在TensorFlow和PyTorch中均可获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供