3 个月前

GLM:基于自回归空白填充的通用语言模型预训练

GLM:基于自回归空白填充的通用语言模型预训练

摘要

现有的预训练架构包括自编码模型(如BERT)、自回归模型(如GPT)以及编码器-解码器模型(如T5)。然而,现有的各类预训练框架在三大主要任务类别——自然语言理解(NLU)、无条件生成与条件生成——中均无法在所有任务上均表现最佳。为此,我们提出了一种基于自回归填空机制的通用语言模型(General Language Model, GLM),以应对这一挑战。GLM通过引入二维位置编码,并允许以任意顺序预测被掩码的文本片段,从而改进了传统的填空式预训练方法,在NLU任务上实现了对BERT和T5的性能超越。同时,GLM可通过调整掩码的数量与长度,灵活地适应不同类型的任务进行预训练。在涵盖NLU、条件生成与无条件生成的广泛任务上,给定相同模型规模与训练数据,GLM的表现优于BERT、T5和GPT;其在仅使用BERT Large模型1.25倍参数量的情况下,即实现了单一预训练模型在多种下游任务中的最优性能,充分体现了该模型在不同任务间的强泛化能力。

代码仓库

thudm/chatglm2-6b
pytorch
GitHub 中提及
thudm/chatglm
pytorch
GitHub 中提及
thudm/visualglm-6b
pytorch
GitHub 中提及
THUDM/GLM
官方
pytorch
GitHub 中提及
thudm/swissarmytransformer
pytorch
GitHub 中提及
BBuf/GLM
pytorch
GitHub 中提及
thudm/chatglm3
pytorch
GitHub 中提及

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailyGLM-XXLarge
ROUGE-1: 44.7
ROUGE-2: 21.4
ROUGE-L: 41.4
document-summarization-on-cnn-daily-mailGLM-XXLarge
ROUGE-1: 44.7
ROUGE-2: 21.4
ROUGE-L: 41.4
language-modelling-on-lambadaGLM-XXLarge (bidirectional)
Accuracy: 72.35
language-modelling-on-lambadaGLM-XXLarge (unidirectional)
Accuracy: 67.18
language-modelling-on-wikitext-103GLM-XXLarge (unidirectional)
Number of params: 10000M
Test perplexity: 12.22
language-modelling-on-wikitext-103GLM-XXLarge (bidirectional)
Number of params: 10000M
Test perplexity: 11.33

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GLM:基于自回归空白填充的通用语言模型预训练 | 论文 | HyperAI超神经