7 个月前

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever

摘要

Transformer （Transformers）是强大的序列模型，但其所需的时间和内存随着序列长度的增加而呈二次增长。在本文中，我们引入了注意力矩阵的稀疏分解方法，将这一复杂度降低至 $O(n \sqrt{n})$ 。此外，我们还提出了：a) 一种架构和初始化的变化，以训练更深的网络；b) 重新计算注意力矩阵以节省内存；c) 用于训练的快速注意力内核。我们将这些改进后的网络称为稀疏 Transformer （Sparse Transformers），并展示了它们可以使用数百层来建模长达数万时间步的序列。我们使用相同的架构对图像、音频和文本从原始字节进行建模，在Enwik8、CIFAR-10和ImageNet-64的数据密度建模方面达到了新的最佳水平。我们生成的无条件样本展示了全局连贯性和高度多样性，并证明原则上可以使用自注意力机制来建模长度超过一百万的时间步序列。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever

摘要

Transformer （Transformers）是强大的序列模型，但其所需的时间和内存随着序列长度的增加而呈二次增长。在本文中，我们引入了注意力矩阵的稀疏分解方法，将这一复杂度降低至 $O(n \sqrt{n})$ 。此外，我们还提出了：a) 一种架构和初始化的变化，以训练更深的网络；b) 重新计算注意力矩阵以节省内存；c) 用于训练的快速注意力内核。我们将这些改进后的网络称为稀疏 Transformer （Sparse Transformers），并展示了它们可以使用数百层来建模长达数万时间步的序列。我们使用相同的架构对图像、音频和文本从原始字节进行建模，在Enwik8、CIFAR-10和ImageNet-64的数据密度建模方面达到了新的最佳水平。我们生成的无条件样本展示了全局连贯性和高度多样性，并证明原则上可以使用自注意力机制来建模长度超过一百万的时间步序列。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供