
摘要
自然语言处理(NLP)技术的显著进展在很大程度上得益于多任务基准测试的发展,如GLUE和SuperGLUE。尽管这些基准测试主要关注一到两个输入句子的任务,但在设计高效处理更长输入的技术方面也取得了令人振奋的进展。本文介绍了MuLD:一个新的长文档基准测试,仅包含超过10,000个标记的文档。通过修改现有的NLP任务,我们创建了一个多样化的基准测试,要求模型能够成功建模文本中的长期依赖关系。我们评估了现有模型的表现,并发现该基准测试比其“短文档”版本更具挑战性。此外,通过对常规变压器和高效变压器进行评估,我们展示了增加上下文长度的模型在解决所提出的任务时表现更好,这表明未来对这些模型的改进对于解决类似的长文档问题至关重要。我们发布了数据和基线代码,以鼓励对高效NLP模型的进一步研究。
代码仓库
ghomashudson/muld
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-muld-hotpotqa | Longformer | BLEU-1: 30.38 BLEU-4: 16.76 METEOR: 4.98 Rouge-L: 30.49 |
| question-answering-on-muld-hotpotqa | T5 | BLEU-1: 28.11 BLEU-4: 13.63 METEOR: 4.46 Rouge-L: 27.61 |
| question-answering-on-muld-narrativeqa | Longformer | BLEU-1: 19.84 BLEU-4: 62 METEOR: 4.52 Rouge-L: 22.09 |
| question-answering-on-muld-narrativeqa | T5 | BLEU-1: 17.67 BLEU-4: 55 METEOR: 3.36 Rouge-L: 19.03 |
| summarization-on-muld-vlsp | T5 | BLEU-1: 28.85 BLEU-4: 84 METEOR: 7.98 Rouge-L: 16.55 |
| summarization-on-muld-vlsp | Longformer | BLEU-1: 46.74 BLEU-4: 3.05 METEOR: 9.58 Rouge-L: 19.52 |
| text-classification-on-muld-character-type | Longformer | F1: 82.58 |
| text-classification-on-muld-character-type | T5 | F1: 54.01 |
| translation-on-muld-opensubtitles | Longformer | BLEU-1: 22.74 BLEU-4: 20 METEOR: 22.95 Rouge-L: 22.17 |
| translation-on-muld-opensubtitles | T5 | BLEU-1: 34.07 BLEU-4: 1.63 METEOR: 38.53 Rouge-L: 35.35 |