Aurko RoyRohan AnilGuangda LaiBenjamin LeeJeffrey ZhaoShuyuan ZhangShibo WangYe ZhangShen WuRigel SwavelyPhuong DaoChristopher FiftyZhifeng ChenYonghui Wu

摘要
近年来,Transformer模型已成为自然语言处理领域的重要基础模型,随之而来的是对模型规模扩展的广泛关注与投入。然而,大型Transformer语言模型在训练和推理阶段的成本极高,因此亟需开展更多研究以探索更具效率的模型变体。在本工作中,我们受到统计语言建模领域文献的启发,提出了一种简单而有效的Transformer架构改进方法:通过引入由文本序列离散潜在表示构建的n-gram信息,对模型进行增强。我们在C4数据集上评估了所提出的模型(命名为N-Grammer)在语言建模任务上的表现,并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明,N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性,我们已将该模型以Jax框架实现并开源。
代码仓库
yiyixuxu/n-grammer-flax
jax
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-record | N-Grammer 343M | EM: 28.9 F1: 29.9 |
| coreference-resolution-on-winograd-schema | N-Grammer 343M | Accuracy: 68.3 |
| language-modelling-on-c4 | N-Grammer 343M | Perplexity: 14.79 |
| language-modelling-on-c4 | N-Grammer 288M | Perplexity: 15.01 |
| natural-language-inference-on-commitmentbank | N-Grammer 343M | Accuracy: 67.9 F1: 59.7 |
| natural-language-inference-on-rte | N-Grammer 343M | Accuracy: 59.2% |
| question-answering-on-boolq | N-Grammer 343M | Accuracy: 65 |
| question-answering-on-copa | N-Grammer 343M | Accuracy: 60.0 |
| question-answering-on-multirc | N-Grammer 343M | EM: 11.3 F1: 62 |
| word-sense-disambiguation-on-words-in-context | N-Grammer 343M | Accuracy: 56.1 |