4 个月前

MPNet:用于语言理解的掩码和排列预训练模型

MPNet:用于语言理解的掩码和排列预训练模型

摘要

BERT 在预训练中采用了掩码语言模型(Masked Language Modeling, MLM),并成为最成功的预训练模型之一。由于 BERT 忽略了预测标记之间的依赖关系,XLNet 引入了排列语言模型(Permuted Language Modeling, PLM)进行预训练以解决这一问题。然而,XLNet 并未充分利用句子的全部位置信息,因此在预训练和微调之间存在位置差异。在本文中,我们提出了一种新的预训练方法——MPNet,该方法继承了 BERT 和 XLNet 的优点,并避免了它们的局限性。MPNet 通过排列语言模型(与 BERT 中的 MLM 相比)利用了预测标记之间的依赖关系,并将辅助位置信息作为输入,使模型能够看到完整的句子,从而减少了位置差异(与 XLNet 中的 PLM 相比)。我们在大规模数据集(超过 160GB 的文本语料库)上对 MPNet 进行了预训练,并在多种下游任务(如 GLUE、SQuAD 等)上进行了微调。实验结果表明,MPNet 在性能上大幅超越了 MLM 和 PLM,并且在相同模型设置下,相比之前的最先进的预训练方法(例如 BERT、XLNet、RoBERTa)取得了更好的结果。代码和预训练模型可在以下地址获取:https://github.com/microsoft/MPNet。

代码仓库

基准测试

基准方法指标
task-1-grouping-on-ocwall-mpnet (BASE)
Wasserstein Distance (WD): 86.3 ± .4
# Correct Groups: 50 ± 4
# Solved Walls: 0 ± 0
Adjusted Mutual Information (AMI): 14.3 ± .5
Adjusted Rand Index (ARI): 11.7 ± .4
Fowlkes Mallows Score (FMS): 29.4 ± .3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MPNet:用于语言理解的掩码和排列预训练模型 | 论文 | HyperAI超神经