4 个月前

MuLD:多任务长文档基准测试

MuLD:多任务长文档基准测试

摘要

自然语言处理(NLP)技术的显著进展在很大程度上得益于多任务基准测试的发展,如GLUE和SuperGLUE。尽管这些基准测试主要关注一到两个输入句子的任务,但在设计高效处理更长输入的技术方面也取得了令人振奋的进展。本文介绍了MuLD:一个新的长文档基准测试,仅包含超过10,000个标记的文档。通过修改现有的NLP任务,我们创建了一个多样化的基准测试,要求模型能够成功建模文本中的长期依赖关系。我们评估了现有模型的表现,并发现该基准测试比其“短文档”版本更具挑战性。此外,通过对常规变压器和高效变压器进行评估,我们展示了增加上下文长度的模型在解决所提出的任务时表现更好,这表明未来对这些模型的改进对于解决类似的长文档问题至关重要。我们发布了数据和基线代码,以鼓励对高效NLP模型的进一步研究。

代码仓库

ghomashudson/muld
官方
GitHub 中提及

基准测试

基准方法指标
question-answering-on-muld-hotpotqaLongformer
BLEU-1: 30.38
BLEU-4: 16.76
METEOR: 4.98
Rouge-L: 30.49
question-answering-on-muld-hotpotqaT5
BLEU-1: 28.11
BLEU-4: 13.63
METEOR: 4.46
Rouge-L: 27.61
question-answering-on-muld-narrativeqaLongformer
BLEU-1: 19.84
BLEU-4: 62
METEOR: 4.52
Rouge-L: 22.09
question-answering-on-muld-narrativeqaT5
BLEU-1: 17.67
BLEU-4: 55
METEOR: 3.36
Rouge-L: 19.03
summarization-on-muld-vlspT5
BLEU-1: 28.85
BLEU-4: 84
METEOR: 7.98
Rouge-L: 16.55
summarization-on-muld-vlspLongformer
BLEU-1: 46.74
BLEU-4: 3.05
METEOR: 9.58
Rouge-L: 19.52
text-classification-on-muld-character-typeLongformer
F1: 82.58
text-classification-on-muld-character-typeT5
F1: 54.01
translation-on-muld-opensubtitlesLongformer
BLEU-1: 22.74
BLEU-4: 20
METEOR: 22.95
Rouge-L: 22.17
translation-on-muld-opensubtitlesT5
BLEU-1: 34.07
BLEU-4: 1.63
METEOR: 38.53
Rouge-L: 35.35

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MuLD:多任务长文档基准测试 | 论文 | HyperAI超神经