3 个月前

N-Grammer:通过潜在n-gram增强Transformer

N-Grammer:通过潜在n-gram增强Transformer

摘要

近年来,Transformer模型已成为自然语言处理领域的重要基础模型,随之而来的是对模型规模扩展的广泛关注与投入。然而,大型Transformer语言模型在训练和推理阶段的成本极高,因此亟需开展更多研究以探索更具效率的模型变体。在本工作中,我们受到统计语言建模领域文献的启发,提出了一种简单而有效的Transformer架构改进方法:通过引入由文本序列离散潜在表示构建的n-gram信息,对模型进行增强。我们在C4数据集上评估了所提出的模型(命名为N-Grammer)在语言建模任务上的表现,并在SuperGLUE数据集上测试其在文本分类任务中的性能。实验结果表明,N-Grammer在多个方面优于包括标准Transformer和Primer在内的多种强基准模型。为促进研究的可复现性,我们已将该模型以Jax框架实现并开源。

代码仓库

yiyixuxu/n-grammer-flax
jax
GitHub 中提及

基准测试

基准方法指标
common-sense-reasoning-on-recordN-Grammer 343M
EM: 28.9
F1: 29.9
coreference-resolution-on-winograd-schemaN-Grammer 343M
Accuracy: 68.3
language-modelling-on-c4N-Grammer 343M
Perplexity: 14.79
language-modelling-on-c4N-Grammer 288M
Perplexity: 15.01
natural-language-inference-on-commitmentbankN-Grammer 343M
Accuracy: 67.9
F1: 59.7
natural-language-inference-on-rteN-Grammer 343M
Accuracy: 59.2%
question-answering-on-boolqN-Grammer 343M
Accuracy: 65
question-answering-on-copaN-Grammer 343M
Accuracy: 60.0
question-answering-on-multircN-Grammer 343M
EM: 11.3
F1: 62
word-sense-disambiguation-on-words-in-contextN-Grammer 343M
Accuracy: 56.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
N-Grammer:通过潜在n-gram增强Transformer | 论文 | HyperAI超神经