3 个月前

SCROLLS:长语言序列上的标准化比较

SCROLLS:长语言序列上的标准化比较

摘要

自然语言处理(NLP)基准测试长期以来主要聚焦于短文本任务,如句子和段落,尽管在现实世界中,长文本占据了自然语言的相当大比例。为此,我们提出了SCROLLS——一组要求对长文本进行推理的任务集合。我们系统评估了现有的长文本数据集,精心筛选出那些文本本身自然较长的数据集,并优先选择需要在输入内容间整合信息的任务。SCROLLS涵盖摘要生成、问答和自然语言推理三类任务,覆盖文学、科学、商业及娱乐等多个领域。初步基线模型(包括Longformer Encoder-Decoder)的实验结果表明,当前模型在SCROLLS上的表现仍有巨大提升空间。我们已将所有数据集统一转化为文本到文本格式,并搭建了实时排行榜,以推动模型架构与预训练方法的研究进展。

代码仓库

tau-nlp/scrolls
官方
GitHub 中提及
mivg/sled
pytorch
GitHub 中提及

基准测试

基准方法指标
long-range-modeling-on-scrollsNaive
Avg.: 19.35
CNLI: 66
GovRep: 45.3 / 17.9 / 20.8
Nrtv: 1.5
QALT EM-T/H: 25.2 / 26.1
QMSum: 14.2 / 2.0 / 9.3
Qspr: 3.4
SumScr: 19.6 / 1.8 / 11.0
long-range-modeling-on-scrollsBART Base
Avg.: 29.01
CNLI: 77.4
GovRep: 47.9 / 18.6 / 22.7
Nrtv: 15.4
QALT EM-T/H: 26.0 / 25.9
QMSum: 30.2 / 8.7 / 20.7
Qspr: 26.3
SumScr: 27.2 / 4.9 / 16.7
long-range-modeling-on-scrollsLED Base-

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
SCROLLS:长语言序列上的标准化比较 | 论文 | HyperAI超神经