6 个月前

自然语言处理

自然语言处理

Yunyang Xiong Zhanpeng Zeng Rudrasis Chakraborty Mingxing Tan Glenn Fung Yin Li Vikas Singh

摘要

Transformer已成为自然语言处理领域众多任务中一种强大的工具。推动Transformer取得优异性能的关键组件是自注意力机制（self-attention），该机制能够捕捉序列中其他标记对每个特定标记的影响或依赖关系。尽管自注意力机制效果显著，但其在输入序列长度上的二次方复杂度限制了其在长序列任务中的应用——这一问题目前仍是学术界积极研究的热点。为解决这一局限，我们提出了Nyströmformer模型，该模型在序列长度增长时表现出良好的可扩展性。我们的核心思想是将Nyström方法引入自注意力机制，以近似标准自注意力计算，从而将复杂度降低至 $O(n)$ 。Nyströmformer的可扩展性使其能够有效处理包含数千个标记的长序列任务。我们在GLUE基准和IMDB评论数据集上的多个下游任务中进行了评估，采用标准序列长度，结果表明，Nyströmformer的性能与标准自注意力机制相当，甚至在部分任务中表现略优。在Long Range Arena（LRA）基准的长序列任务中，Nyströmformer相较于其他高效的自注意力方法也展现出更优或相当的性能表现。相关代码已开源，可通过以下链接获取：https://github.com/mlpen/Nystromformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

自然语言处理

自然语言处理

Yunyang Xiong Zhanpeng Zeng Rudrasis Chakraborty Mingxing Tan Glenn Fung Yin Li Vikas Singh

摘要

Transformer已成为自然语言处理领域众多任务中一种强大的工具。推动Transformer取得优异性能的关键组件是自注意力机制（self-attention），该机制能够捕捉序列中其他标记对每个特定标记的影响或依赖关系。尽管自注意力机制效果显著，但其在输入序列长度上的二次方复杂度限制了其在长序列任务中的应用——这一问题目前仍是学术界积极研究的热点。为解决这一局限，我们提出了Nyströmformer模型，该模型在序列长度增长时表现出良好的可扩展性。我们的核心思想是将Nyström方法引入自注意力机制，以近似标准自注意力计算，从而将复杂度降低至 $O(n)$ 。Nyströmformer的可扩展性使其能够有效处理包含数千个标记的长序列任务。我们在GLUE基准和IMDB评论数据集上的多个下游任务中进行了评估，采用标准序列长度，结果表明，Nyströmformer的性能与标准自注意力机制相当，甚至在部分任务中表现略优。在Long Range Arena（LRA）基准的长序列任务中，Nyströmformer相较于其他高效的自注意力方法也展现出更优或相当的性能表现。相关代码已开源，可通过以下链接获取：https://github.com/mlpen/Nystromformer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供