3 个月前

KELM:基于分层关系图上传播消息的知识增强预训练语言表示

KELM:基于分层关系图上传播消息的知识增强预训练语言表示

摘要

将事实知识融入预训练语言模型(PLM),如BERT,是近年来自然语言处理(NLP)研究中的一个新兴趋势。然而,现有的大多数方法通常将外部知识集成模块与修改后的预训练损失函数相结合,并在大规模语料库上重新实现预训练过程。这种重新预训练往往资源消耗巨大,且难以适应具有不同知识图谱(KG)的其他领域。此外,这些方法要么无法根据文本上下文动态嵌入知识上下文,要么在处理知识歧义问题时表现不佳。本文提出了一种基于微调过程的新型知识感知语言模型框架,该框架使PLM具备一个统一的知识增强文本图,该图包含从知识图谱中提取的文本信息以及多关系子图。我们设计了一种基于分层关系图的消息传递机制,能够使注入的知识图谱表示与文本表示相互更新,并能根据上下文动态选择具有相同文本表述但语义上存在歧义的实体。实验结果表明,该模型能够高效地将知识图谱中的世界知识融入现有语言模型(如BERT),在机器阅读理解(MRC)任务上显著优于其他知识增强型模型。

基准测试

基准方法指标
common-sense-reasoning-on-recordKELM (finetuning BERT-large based single model)
EM: 76.2
F1: 76.7
common-sense-reasoning-on-recordKELM (finetuning RoBERTa-large based single model)
EM: 89.1
F1: 89.6
question-answering-on-copaKELM (finetuning BERT-large based single model)
Accuracy: 78.0
question-answering-on-multircKELM (finetuning BERT-large based single model)
EM: 27.2
F1: 70.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
KELM:基于分层关系图上传播消息的知识增强预训练语言表示 | 论文 | HyperAI超神经