6 个月前

摘要

超细粒度实体类型识别（Ultra-Fine Entity Typing, UFET）旨在预测描述句子中提及实体的多样化且自由形式的词汇或短语。该任务面临的主要挑战在于类型数量庞大，而每种类型对应的标注数据极为稀缺。现有系统通常将该任务建模为多分类问题，并采用直接监督或远程监督的方式训练分类器。这种方法存在两个关键问题：（i）由于类型常被转换为索引，分类器难以捕捉类型之间的语义关系；（ii）此类系统仅限于预测预定义类型集合中的类型，难以泛化到训练阶段罕见或未见的类型。本文提出一种新方法——LITE（Learning to Infer Type via Entailment），将实体类型识别建模为自然语言推理（Natural Language Inference, NLI）问题。该方法利用：（i）来自NLI的间接监督信号，通过以文本假设（textual hypotheses）形式有意义地表示类型信息，缓解数据稀缺问题；（ii）基于学习排序（learning-to-rank）的目标函数，避免预先定义类型集合的限制。实验结果表明，在训练数据有限的情况下，LITE在UFET任务上达到了当前最优性能。此外，LITE展现出强大的泛化能力：不仅在其他细粒度实体类型识别基准上取得最佳结果，更重要的是，预训练的LITE模型在包含未见类型的全新数据上也能表现良好，具备出色的开放域适应能力。

源 PDF