4 个月前

PERT:使用排列语言模型预训练BERT

PERT:使用排列语言模型预训练BERT

摘要

预训练语言模型(PLMs)由于其在大规模语料库上训练的强大文本表示能力,已在各种自然语言处理(NLP)任务中得到广泛应用。本文提出了一种新的预训练语言模型,称为PERT,用于自然语言理解(NLU)。PERT是一种自编码模型(类似于BERT),通过排列语言模型(PerLM)进行训练。所提出的PerLM的公式非常直接:我们对输入文本的一部分进行排列,训练目标是预测原始标记的位置。此外,我们还应用了全词掩码和N-gram掩码以提高PERT的性能。我们在中文和英文的自然语言理解基准数据集上进行了广泛的实验。实验结果表明,PERT在某些任务上相比多种可比基线模型有所改进,而在其他任务上则没有明显提升。这些结果表明,开发更多样化的预训练任务是可行的,而不仅仅是掩码语言模型的变体。为了更好地理解PERT,我们进行了几项定量研究,这可能对未来设计预训练语言模型有所帮助。资源链接:https://github.com/ymcui/PERT

代码仓库

ymcui/pert
官方
tf
GitHub 中提及

基准测试

基准方法指标
stock-market-prediction-on-astockChinese Pert Large (News+Factors)
Accuray: 67.37
F1-score: 67.27
Precision: 67.28
Recall: 67.73
stock-market-prediction-on-astockChinese Pert Large (News)
Accuray: 65.09
F1-score: 65.03
Precision: 65.02
Recall: 65.07

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PERT:使用排列语言模型预训练BERT | 论文 | HyperAI超神经