
摘要
迄今为止,命名实体识别(NER)主要涉及三种类型,包括平面NER、重叠NER(又称嵌套NER)和不连续NER,这些类型大多被单独研究。最近,对于统一NER的兴趣日益增加,旨在通过单一模型同时解决上述三种任务。目前表现最佳的方法主要包括基于片段的模型和序列到序列模型,但不幸的是,前者仅关注边界识别,而后者可能受到暴露偏差的影响。在本工作中,我们提出了一种新颖的替代方法,即将统一NER建模为词-词关系分类,即W^2NER。该架构通过有效建模实体词之间的邻接关系来解决统一NER的核心瓶颈问题,具体使用了Next-Neighboring-Word (NNW) 和 Tail-Head-Word- (THW-) 关系。基于W^2NER方案,我们开发了一个神经框架,在该框架中,统一NER被建模为一个二维词对网格。随后,我们提出了多粒度二维卷积以更好地优化网格表示。最后,使用了一个共预测器来充分推理词-词关系。我们在14个广泛使用的基准数据集上进行了大量实验(其中8个为英文数据集,6个为中文数据集),结果表明我们的模型超越了所有当前表现最佳的基线模型,推动了统一NER的最先进性能。
代码仓库
ljynlp/w2ner
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-named-entity-recognition-on-msra | W2NER | F1: 96.10 |
| chinese-named-entity-recognition-on-ontonotes | W2NER | F1: 83.08 |
| named-entity-recognition-ner-on-conll-2003 | W2NER | F1: 93.07 |
| named-entity-recognition-ner-on-ontonotes-v5 | W2NER | F1: 90.50 |
| nested-named-entity-recognition-on-ace-2004 | W2NER | F1: 87.52 |
| nested-named-entity-recognition-on-ace-2005 | W2NER | F1: 86.79 |
| nested-named-entity-recognition-on-genia | W2NER | F1: 81.39 |