3 个月前

基于稀疏潜在类型化的语言模型预训练

基于稀疏潜在类型化的语言模型预训练

摘要

现代大规模预训练语言模型(Pre-trained Language Models, PLMs)在众多下游任务中取得了显著成功。然而,大多数语言模型的预训练目标仅聚焦于文本重建,未能有效学习句子的潜在可解释表示。本文提出一种新的预训练目标——稀疏潜在类型化(Sparse Latent Typing),旨在推动语言模型对句子实现更深层次的理解。该方法能够稀疏地提取具有多样潜在类型的句子级关键词。实验结果表明,我们的模型能够在无需任何外部知识的情况下,以自监督方式学习到具有可解释性的潜在类型类别。此外,采用该目标进行预训练的语言模型在信息抽取相关的下游任务中,无论是在监督学习还是少样本学习设置下,均取得了显著性能提升。相关代码已公开,地址为:https://github.com/renll/SparseLT。

代码仓库

renll/sparselt
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
few-shot-ner-on-few-nerd-interBERT-SparseLT + CONTaiNER
10 way 1~2 shot: 52.75
10 way 5~10 shot: 62.43
5 way 1~2 shot: 57.14
5 way 5~10 shot: 66.17
few-shot-ner-on-few-nerd-intraBERT-SparseLT+CONTainNER
10 way 1~2 shot: 40.48
10 way 5~10 shot: 53.04
5 way 1~2 shot: 47.20
5 way 5~10 shot: 59.67

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于稀疏潜在类型化的语言模型预训练 | 论文 | HyperAI超神经