Joshua AinslieTao LeiMichiel de JongSantiago OntañónSiddhartha BrahmaYury ZemlyanskiyDavid UthusMandy GuoJames Lee-ThorpYi TayYun-Hsuan SungSumit Sanghai

摘要
许多自然语言处理任务得益于长输入,但使用Transformer模型处理长文档时成本高昂——这不仅源于注意力机制的二次方复杂度,还因为前馈网络和投影层需作用于每个token。然而,在长文档中,并非所有token都具有同等重要性。为此,我们提出CoLT5,一种面向长输入的Transformer模型,其核心思想基于上述直觉:通过引入条件计算机制,将更多计算资源集中分配给重要token,从而在前馈层和注意力层中实现更高效的资源利用。实验表明,CoLT5在性能上优于LongT5,同时具备显著更快的训练与推理速度,在长输入SCROLLS基准测试中达到当前最优(SOTA)水平。此外,CoLT5能够高效且可扩展地处理极长输入,其性能在输入长度高达64k时仍表现出显著提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-range-modeling-on-scrolls | CoLT5 XL | Avg.: 43.51 CNLI: 88.4 GovRep: 61.3/32.2/33.8 Nrtv: 31.1 QALT EM-T/H: 48.1/43.8 QMSum: 36.2/12.9/24.3 Qspr: 53.9 SumScr: 36.4/10.2/21.7 |