3 个月前

LongT5:面向长序列的高效文本到文本Transformer

LongT5:面向长序列的高效文本到文本Transformer

摘要

近期研究表明,无论是增加输入长度,还是扩大模型规模,均能提升基于Transformer的神经网络模型的性能。本文提出一种新模型——LongT5,旨在同时探索输入长度与模型规模双重扩展的影响。具体而言,我们将长输入Transformer(ETC)中的注意力机制思想融入可扩展的T5架构,并借鉴摘要预训练方法(PEGASUS)的预训练策略。由此提出一种新型注意力机制,称为瞬态全局注意力(Transient Global, TGlobal),该机制模拟ETC的局部/全局注意力机制,但无需引入额外的辅助输入。实验结果表明,LongT5在多个摘要任务上取得了当前最优性能,并在问答任务上超越了原始T5模型的表现。

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailyLongT5
ROUGE-1: 43.94
ROUGE-2: 21.40
ROUGE-L: 41.28
long-range-modeling-on-scrollsLongT5 Base
Avg.: 38.6
CNLI: 85.6
GovRep: 57.7 / 30.0 / 31.4
Nrtv: 23.0
QALT EM-T/H: 37.9 / 36.6
QMSum: 33.9 / 11.0 / 22.8
Qspr: 46.6
SumScr: 34.8 / 9.6 / 21.1
long-range-modeling-on-scrollsLongT5 XL
Avg.: 42.53
CNLI: 88.2
GovRep: 61.1 / 32.3 / 33.7
Nrtv: 29.3
QALT EM-T/H: 46.0 / 42.1
QMSum: 34.9 / 11.8 / 23.5
Qspr: 53.1
SumScr: 35.8 / 9.6 / 21.1
long-range-modeling-on-scrollsLongT5 Large
Avg.: 41.03
CNLI: 87.3
GovRep: 61.3/32.2/33.8
Nrtv: 27.2
QALT EM-T/H: 40.6 / 38.6
QMSum: 35.1 / 12.0 / 23.3
Qspr: 52.3
SumScr: 60.3 / 31.1 / 32.8
multi-document-summarization-on-multi-newsLongT5
ROUGE-1: 48.17
ROUGE-2: 19.43
ROUGE-SU4: 24.94
text-summarization-on-arxivLongT5
ROUGE-1: 48.35
ROUGE-2: 21.92
ROUGE-L: 44.27
text-summarization-on-bigpatentLongT5
ROUGE-1: 76.87
ROUGE-2: 66.06
ROUGE-L: 70.76
text-summarization-on-pubmed-1LongT5
ROUGE-1: 50.23
ROUGE-2: 24.76
ROUGE-L: 46.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LongT5:面向长序列的高效文本到文本Transformer | 论文 | HyperAI超神经