8 个月前

自然语言处理

自然语言处理

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

摘要

BERT 在预训练中采用了掩码语言模型（Masked Language Modeling, MLM），并成为最成功的预训练模型之一。由于 BERT 忽略了预测标记之间的依赖关系，XLNet 引入了排列语言模型（Permuted Language Modeling, PLM）进行预训练以解决这一问题。然而，XLNet 并未充分利用句子的全部位置信息，因此在预训练和微调之间存在位置差异。在本文中，我们提出了一种新的预训练方法——MPNet，该方法继承了 BERT 和 XLNet 的优点，并避免了它们的局限性。MPNet 通过排列语言模型（与 BERT 中的 MLM 相比）利用了预测标记之间的依赖关系，并将辅助位置信息作为输入，使模型能够看到完整的句子，从而减少了位置差异（与 XLNet 中的 PLM 相比）。我们在大规模数据集（超过 160GB 的文本语料库）上对 MPNet 进行了预训练，并在多种下游任务（如 GLUE、SQuAD 等）上进行了微调。实验结果表明，MPNet 在性能上大幅超越了 MLM 和 PLM，并且在相同模型设置下，相比之前的最先进的预训练方法（例如 BERT、XLNet、RoBERTa）取得了更好的结果。代码和预训练模型可在以下地址获取：https://github.com/microsoft/MPNet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Kaitao Song Xu Tan Tao Qin Jianfeng Lu Tie-Yan Liu

摘要

BERT 在预训练中采用了掩码语言模型（Masked Language Modeling, MLM），并成为最成功的预训练模型之一。由于 BERT 忽略了预测标记之间的依赖关系，XLNet 引入了排列语言模型（Permuted Language Modeling, PLM）进行预训练以解决这一问题。然而，XLNet 并未充分利用句子的全部位置信息，因此在预训练和微调之间存在位置差异。在本文中，我们提出了一种新的预训练方法——MPNet，该方法继承了 BERT 和 XLNet 的优点，并避免了它们的局限性。MPNet 通过排列语言模型（与 BERT 中的 MLM 相比）利用了预测标记之间的依赖关系，并将辅助位置信息作为输入，使模型能够看到完整的句子，从而减少了位置差异（与 XLNet 中的 PLM 相比）。我们在大规模数据集（超过 160GB 的文本语料库）上对 MPNet 进行了预训练，并在多种下游任务（如 GLUE、SQuAD 等）上进行了微调。实验结果表明，MPNet 在性能上大幅超越了 MLM 和 PLM，并且在相同模型设置下，相比之前的最先进的预训练方法（例如 BERT、XLNet、RoBERTa）取得了更好的结果。代码和预训练模型可在以下地址获取：https://github.com/microsoft/MPNet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MPNet：用于语言理解的掩码和排列预训练模型 | 论文 | HyperAI超神经