HyperAIHyperAI

Command Palette

Search for a command to run...

CoLT5:基于条件计算的更快长程Transformer

摘要

许多自然语言处理任务得益于长输入,但使用Transformer模型处理长文档时成本高昂——这不仅源于注意力机制的二次方复杂度,还因为前馈网络和投影层需作用于每个token。然而,在长文档中,并非所有token都具有同等重要性。为此,我们提出CoLT5,一种面向长输入的Transformer模型,其核心思想基于上述直觉:通过引入条件计算机制,将更多计算资源集中分配给重要token,从而在前馈层和注意力层中实现更高效的资源利用。实验表明,CoLT5在性能上优于LongT5,同时具备显著更快的训练与推理速度,在长输入SCROLLS基准测试中达到当前最优(SOTA)水平。此外,CoLT5能够高效且可扩展地处理极长输入,其性能在输入长度高达64k时仍表现出显著提升。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoLT5:基于条件计算的更快长程Transformer | 论文 | HyperAI超神经