3 个月前

CoLT5:基于条件计算的更快长程Transformer

CoLT5:基于条件计算的更快长程Transformer

摘要

许多自然语言处理任务得益于长输入,但使用Transformer模型处理长文档时成本高昂——这不仅源于注意力机制的二次方复杂度,还因为前馈网络和投影层需作用于每个token。然而,在长文档中,并非所有token都具有同等重要性。为此,我们提出CoLT5,一种面向长输入的Transformer模型,其核心思想基于上述直觉:通过引入条件计算机制,将更多计算资源集中分配给重要token,从而在前馈层和注意力层中实现更高效的资源利用。实验表明,CoLT5在性能上优于LongT5,同时具备显著更快的训练与推理速度,在长输入SCROLLS基准测试中达到当前最优(SOTA)水平。此外,CoLT5能够高效且可扩展地处理极长输入,其性能在输入长度高达64k时仍表现出显著提升。

基准测试

基准方法指标
long-range-modeling-on-scrollsCoLT5 XL
Avg.: 43.51
CNLI: 88.4
GovRep: 61.3/32.2/33.8
Nrtv: 31.1
QALT EM-T/H: 48.1/43.8
QMSum: 36.2/12.9/24.3
Qspr: 53.9
SumScr: 36.4/10.2/21.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoLT5:基于条件计算的更快长程Transformer | 论文 | HyperAI超神经