3 个月前

UniLMv2:用于统一语言模型预训练的伪掩码语言模型

UniLMv2:用于统一语言模型预训练的伪掩码语言模型

摘要

我们提出一种新颖的训练方法——伪掩码语言模型(Pseudo-Masked Language Model, PMLM),用于统一预训练一个既适用于自编码(autoencoding)任务又适用于部分自回归(partially autoregressive)语言建模任务的通用语言模型。给定包含掩码标记的输入文本,该方法利用传统掩码通过自编码机制学习被破坏标记与上下文之间的相互关系,同时借助伪掩码通过部分自回归建模学习掩码片段内部的内在关联。通过精心设计的位置编码与自注意力掩码机制,模型能够复用上下文编码,从而避免冗余计算。此外,用于自编码的常规掩码提供了全局掩码信息,使得在部分自回归语言建模过程中,所有位置编码均可被访问。值得注意的是,这两种预训练任务分别使统一语言模型同时具备双向编码器和序列到序列解码器的能力。实验结果表明,基于PMLM方法预训练的统一语言模型在多个广泛使用的基准测试中,于自然语言理解与生成任务上均取得了新的最先进性能。

代码仓库

microsoft/dialoglm
pytorch
GitHub 中提及
facebookresearch/data2vec_vision
pytorch
GitHub 中提及
microsoft/unilm
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
abstractive-text-summarization-on-cnn-dailyUniLMv2
ROUGE-1: 43.16
ROUGE-2: 20.42
ROUGE-L: 40.14
question-generation-on-squad11UniLMv2
BLEU-4: 24.43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UniLMv2:用于统一语言模型预训练的伪掩码语言模型 | 论文 | HyperAI超神经