
摘要
本文提出了一种新的实体关系抽取范式。我们将该任务转化为多轮问答问题,即从上下文中识别出答案片段来完成实体和关系的抽取。这种多轮问答形式化方法具有几个关键优势:首先,问题查询编码了我们希望识别的实体/关系类的重要信息;其次,问答提供了一种自然的方式,可以联合建模实体和关系;最后,它使我们能够利用已经发展成熟的机器阅读理解(MRC)模型。在ACE和CoNLL04语料库上的实验表明,所提出的范式显著优于之前的最佳模型。我们在ACE04、ACE05和CoNLL04数据集上均取得了最先进(SOTA)的结果,分别将这三个数据集的SOTA结果提升至49.4(+1.0)、60.2(+0.6)和68.9(+2.1)。此外,我们构建了一个新开发的中文数据集RESUME,该数据集需要进行多步推理以构建实体依赖关系,而以往的数据集中三元组抽取仅需单步依赖关系提取。所提出的多轮问答模型在RESUME数据集上也实现了最佳性能。
代码仓库
ShannonAI/Entity-Relation-As-Multi-Turn-QA
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-ace-2004 | Multi-turn QA | Cross Sentence: No NER Micro F1: 83.6 RE+ Micro F1: 49.4 |
| relation-extraction-on-ace-2005 | Multi-turn QA | Cross Sentence: No NER Micro F1: 84.8 RE+ Micro F1: 60.2 Sentence Encoder: BERT base |
| relation-extraction-on-conll04 | Multi-turn QA | NER Micro F1: 87.8 RE+ Micro F1: 68.9 |