6 个月前

多任务学习

自然语言处理

Matthew E. Peters Mark Neumann Robert L. Logan IV Roy Schwartz Vidur Joshi Sameer Singh Noah A. Smith

摘要

上下文词表示通常在非结构化、无标注的文本上进行训练，缺乏与现实世界实体的显式关联，且往往难以记住有关这些实体的事实信息。为此，我们提出一种通用方法，将多个知识库（Knowledge Base, KB）嵌入大规模语言模型中，从而以结构化、人工标注的知识增强模型的表示能力。针对每个知识库，我们首先利用集成的实体链接器检索相关的实体嵌入，随后通过一种词到实体注意力机制对上下文词表示进行更新。与以往方法不同，本方法在多任务学习框架下，端到端地联合训练实体链接器与自监督语言建模目标，结合少量实体链接标注数据与大量原始文本数据。在将WordNet及维基百科的子集整合至BERT模型后，所提出的知识增强型BERT（KnowBert）在困惑度、探针任务中对事实的召回能力，以及关系抽取、实体类型识别和词义消歧等下游任务上的表现均得到显著提升。KnowBert的运行时间与原始BERT相当，且具备良好的可扩展性，适用于大规模知识库。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

自然语言处理

Matthew E. Peters Mark Neumann Robert L. Logan IV Roy Schwartz Vidur Joshi Sameer Singh Noah A. Smith

摘要

上下文词表示通常在非结构化、无标注的文本上进行训练，缺乏与现实世界实体的显式关联，且往往难以记住有关这些实体的事实信息。为此，我们提出一种通用方法，将多个知识库（Knowledge Base, KB）嵌入大规模语言模型中，从而以结构化、人工标注的知识增强模型的表示能力。针对每个知识库，我们首先利用集成的实体链接器检索相关的实体嵌入，随后通过一种词到实体注意力机制对上下文词表示进行更新。与以往方法不同，本方法在多任务学习框架下，端到端地联合训练实体链接器与自监督语言建模目标，结合少量实体链接标注数据与大量原始文本数据。在将WordNet及维基百科的子集整合至BERT模型后，所提出的知识增强型BERT（KnowBert）在困惑度、探针任务中对事实的召回能力，以及关系抽取、实体类型识别和词义消歧等下游任务上的表现均得到显著提升。KnowBert的运行时间与原始BERT相当，且具备良好的可扩展性，适用于大规模知识库。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供