3 个月前

长程竞技场:高效Transformer的基准测试

长程竞技场:高效Transformer的基准测试

摘要

Transformer 模型在处理长序列时扩展性较差,主要原因在于其自注意力机制具有二次方复杂度。在最近几个月中,研究者提出了大量高效且快速的 Transformer 变体,以应对这一挑战,这些模型在多数情况下声称其模型质量可与原始 Transformer 相媲美甚至更优。然而,截至目前,该类模型尚缺乏公认的评估标准。此外,由于在多种任务和数据集上存在不一致的基准测试,使得在众多模型之间进行相对质量评估变得极为困难。本文提出了一套系统化且统一的基准测试框架——LRA(Long-Range Arena),专门用于评估模型在长上下文场景下的性能表现。该基准涵盖从 1K 到 16K 个 token 的序列任务,涉及多种数据类型与模态,包括文本、自然语言、合成图像以及需进行相似性、结构化和视觉空间推理的数学表达式。我们系统地在该新提出的基准套件上评估了十种广受认可的长程 Transformer 模型,包括 Reformer、Linformer、Linear Transformer、Sinkhorn Transformer、Performer、Synthesizer、Sparse Transformer 和 Longformer。LRA 为深入理解这类高效 Transformer 模型提供了重要基础,推动了该领域的进一步研究,并引入了一系列具有挑战性的新任务。我们的基准测试代码将公开发布于 https://github.com/google-research/long-range-arena。

代码仓库

guyd1995/lra-benchmark
pytorch
GitHub 中提及
guyd1995/lra-benchmarks
pytorch
GitHub 中提及
google-research/bigbird
tf
GitHub 中提及
dar-tau/lra-benchmark
pytorch
GitHub 中提及

基准测试

基准方法指标
long-range-modeling-on-lraLinear Trans.
Avg: 50.55
Image: 42.34
ListOps: 16.13
Pathfinder: 75.3
Retrieval: 53.09
Text: 65.9
long-range-modeling-on-lraSparse Trans.
Avg: 51.24
Image: 44.24
ListOps: 17.07
Pathfinder: 71.71
Retrieval: 59.59
Text: 63.58
long-range-modeling-on-lraTransformer
Avg: 54.39
Image: 42.44
ListOps: 36.37
Pathfinder: 71.4
Retrieval: 57.46
Text: 64.27
long-range-modeling-on-lraPerformer
Avg: 51.41
Image: 42.77
ListOps: 18.01
Pathfinder: 77.05
Retrieval: 53.82
Text: 65.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
长程竞技场:高效Transformer的基准测试 | 论文 | HyperAI超神经