3 个月前

基于自然语言蕴含的间接监督实现超细粒度实体类型识别

基于自然语言蕴含的间接监督实现超细粒度实体类型识别

摘要

超细粒度实体类型识别(Ultra-Fine Entity Typing, UFET)旨在预测描述句子中提及实体的多样化且自由形式的词汇或短语。该任务面临的主要挑战在于类型数量庞大,而每种类型对应的标注数据极为稀缺。现有系统通常将该任务建模为多分类问题,并采用直接监督或远程监督的方式训练分类器。这种方法存在两个关键问题:(i)由于类型常被转换为索引,分类器难以捕捉类型之间的语义关系;(ii)此类系统仅限于预测预定义类型集合中的类型,难以泛化到训练阶段罕见或未见的类型。本文提出一种新方法——LITE(Learning to Infer Type via Entailment),将实体类型识别建模为自然语言推理(Natural Language Inference, NLI)问题。该方法利用:(i)来自NLI的间接监督信号,通过以文本假设(textual hypotheses)形式有意义地表示类型信息,缓解数据稀缺问题;(ii)基于学习排序(learning-to-rank)的目标函数,避免预先定义类型集合的限制。实验结果表明,在训练数据有限的情况下,LITE在UFET任务上达到了当前最优性能。此外,LITE展现出强大的泛化能力:不仅在其他细粒度实体类型识别基准上取得最佳结果,更重要的是,预训练的LITE模型在包含未见类型的全新数据上也能表现良好,具备出色的开放域适应能力。

代码仓库

luka-group/lite
官方
pytorch

基准测试

基准方法指标
entity-typing-on-figerLITE
Macro F1: 80.1
Micro F1: 83.3
entity-typing-on-ontonotesLITE
Macro F1: 86.6
Micro F1: 81.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自然语言蕴含的间接监督实现超细粒度实体类型识别 | 论文 | HyperAI超神经