
摘要
命名实体识别(NER)是自然语言处理中研究最为深入的任务之一。然而,大多数方法无法处理在许多应用中常见的嵌套结构。本文介绍了一种新颖的神经网络架构,该架构首先将标记和/或实体合并为形成嵌套结构的实体,然后独立地标记每个实体。与以往的工作不同,我们的合并和标记方法预测的是实值而非离散的分段结构,这使得它能够在保持可微性的前提下结合词嵌入和嵌套实体嵌入。我们在ACE 2005语料库上评估了我们的方法,其F1分数达到了74.6,进一步通过上下文嵌入(如BERT)提升至82.4,相比在同一数据集上训练的先前方法整体提高了近8个F1分数点。此外,我们将该方法与BiLSTM-CRFs进行了对比,后者是处理平面NER结构的主要方法,结果表明其预测嵌套结构的能力并不会影响在简单情况下的性能。
代码仓库
fishjh2/merge_label
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-on-ace-2005 | Merge and Label | F1: 82.4 |
| nested-mention-recognition-on-ace-2005 | Merge and Label | F1: 82.4 |
| nested-named-entity-recognition-on-ace-2005 | Merge and Label | F1: 82.4 |