6 个月前

自然语言处理

自然语言处理

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

摘要

我们重新审视了Transformer架构中的设计选择，并提出了一系列方法，以解决其在处理长序列时的固有缺陷。首先，我们提出了一种名为门控注意力单元（gated attention unit）的简单结构，该结构允许在几乎不损失模型质量的前提下，使用性能较弱的单头注意力机制。随后，我们进一步提出一种与该新结构互补的线性近似方法，该方法具有良好的加速器友好性，且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH，在短序列（512）和长序列（8K）两种上下文长度下，其困惑度（perplexity）均达到改进型Transformer的水平。在自回归语言建模任务中，FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速，在PG-19数据集上更是达到12.1倍的加速；在C4数据集的掩码语言建模任务中，也实现了4.8倍的训练加速。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

摘要

我们重新审视了Transformer架构中的设计选择，并提出了一系列方法，以解决其在处理长序列时的固有缺陷。首先，我们提出了一种名为门控注意力单元（gated attention unit）的简单结构，该结构允许在几乎不损失模型质量的前提下，使用性能较弱的单头注意力机制。随后，我们进一步提出一种与该新结构互补的线性近似方法，该方法具有良好的加速器友好性，且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH，在短序列（512）和长序列（8K）两种上下文长度下，其困惑度（perplexity）均达到改进型Transformer的水平。在自回归语言建模任务中，FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速，在PG-19数据集上更是达到12.1倍的加速；在C4数据集的掩码语言建模任务中，也实现了4.8倍的训练加速。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供