Yi TayMostafa DehghaniSamira AbnarYikang ShenDara BahriPhilip PhamJinfeng RaoLiu YangSebastian RuderDonald Metzler

摘要
Transformer 模型在处理长序列时扩展性较差,主要原因在于其自注意力机制具有二次方复杂度。在最近几个月中,研究者提出了大量高效且快速的 Transformer 变体,以应对这一挑战,这些模型在多数情况下声称其模型质量可与原始 Transformer 相媲美甚至更优。然而,截至目前,该类模型尚缺乏公认的评估标准。此外,由于在多种任务和数据集上存在不一致的基准测试,使得在众多模型之间进行相对质量评估变得极为困难。本文提出了一套系统化且统一的基准测试框架——LRA(Long-Range Arena),专门用于评估模型在长上下文场景下的性能表现。该基准涵盖从 1K 到 16K 个 token 的序列任务,涉及多种数据类型与模态,包括文本、自然语言、合成图像以及需进行相似性、结构化和视觉空间推理的数学表达式。我们系统地在该新提出的基准套件上评估了十种广受认可的长程 Transformer 模型,包括 Reformer、Linformer、Linear Transformer、Sinkhorn Transformer、Performer、Synthesizer、Sparse Transformer 和 Longformer。LRA 为深入理解这类高效 Transformer 模型提供了重要基础,推动了该领域的进一步研究,并引入了一系列具有挑战性的新任务。我们的基准测试代码将公开发布于 https://github.com/google-research/long-range-arena。
代码仓库
guyd1995/lra-benchmark
pytorch
GitHub 中提及
guyd1995/lra-benchmarks
pytorch
GitHub 中提及
google-research/bigbird
tf
GitHub 中提及
dar-tau/lra-benchmark
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| long-range-modeling-on-lra | Linear Trans. | Avg: 50.55 Image: 42.34 ListOps: 16.13 Pathfinder: 75.3 Retrieval: 53.09 Text: 65.9 |
| long-range-modeling-on-lra | Sparse Trans. | Avg: 51.24 Image: 44.24 ListOps: 17.07 Pathfinder: 71.71 Retrieval: 59.59 Text: 63.58 |
| long-range-modeling-on-lra | Transformer | Avg: 54.39 Image: 42.44 ListOps: 36.37 Pathfinder: 71.4 Retrieval: 57.46 Text: 64.27 |
| long-range-modeling-on-lra | Performer | Avg: 51.41 Image: 42.77 ListOps: 18.01 Pathfinder: 77.05 Retrieval: 53.82 Text: 65.4 |