
摘要
近期研究表明,无论是增加输入长度,还是扩大模型规模,均能提升基于Transformer的神经网络模型的性能。本文提出一种新模型——LongT5,旨在同时探索输入长度与模型规模双重扩展的影响。具体而言,我们将长输入Transformer(ETC)中的注意力机制思想融入可扩展的T5架构,并借鉴摘要预训练方法(PEGASUS)的预训练策略。由此提出一种新型注意力机制,称为瞬态全局注意力(Transient Global, TGlobal),该机制模拟ETC的局部/全局注意力机制,但无需引入额外的辅助输入。实验结果表明,LongT5在多个摘要任务上取得了当前最优性能,并在问答任务上超越了原始T5模型的表现。
代码仓库
utsjiyaoli/qa-attack
pytorch
GitHub 中提及
pwc-1/Paper-9/tree/main/longt5
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| abstractive-text-summarization-on-cnn-daily | LongT5 | ROUGE-1: 43.94 ROUGE-2: 21.40 ROUGE-L: 41.28 |
| long-range-modeling-on-scrolls | LongT5 Base | Avg.: 38.6 CNLI: 85.6 GovRep: 57.7 / 30.0 / 31.4 Nrtv: 23.0 QALT EM-T/H: 37.9 / 36.6 QMSum: 33.9 / 11.0 / 22.8 Qspr: 46.6 SumScr: 34.8 / 9.6 / 21.1 |
| long-range-modeling-on-scrolls | LongT5 XL | Avg.: 42.53 CNLI: 88.2 GovRep: 61.1 / 32.3 / 33.7 Nrtv: 29.3 QALT EM-T/H: 46.0 / 42.1 QMSum: 34.9 / 11.8 / 23.5 Qspr: 53.1 SumScr: 35.8 / 9.6 / 21.1 |
| long-range-modeling-on-scrolls | LongT5 Large | Avg.: 41.03 CNLI: 87.3 GovRep: 61.3/32.2/33.8 Nrtv: 27.2 QALT EM-T/H: 40.6 / 38.6 QMSum: 35.1 / 12.0 / 23.3 Qspr: 52.3 SumScr: 60.3 / 31.1 / 32.8 |
| multi-document-summarization-on-multi-news | LongT5 | ROUGE-1: 48.17 ROUGE-2: 19.43 ROUGE-SU4: 24.94 |
| text-summarization-on-arxiv | LongT5 | ROUGE-1: 48.35 ROUGE-2: 21.92 ROUGE-L: 44.27 |
| text-summarization-on-bigpatent | LongT5 | ROUGE-1: 76.87 ROUGE-2: 66.06 ROUGE-L: 70.76 |
| text-summarization-on-pubmed-1 | LongT5 | ROUGE-1: 50.23 ROUGE-2: 24.76 ROUGE-L: 46.67 |