
摘要
依存句法树结构能够捕捉句子中词语之间的远距离语法关系。语法关系(如名词主语、宾语等)可能隐含特定命名实体存在的线索。此外,命名实体识别(NER)性能也可受益于依存句法树中词语间的长距离依赖关系。本文提出一种简单而有效的依存引导型LSTM-CRF模型,用于编码完整的依存句法树,以捕捉上述特性,提升命名实体识别任务的表现。数据统计分析显示,实体类型与依存关系之间存在显著相关性。我们在多个标准数据集上进行了大量实验,结果表明所提出的模型在提升NER性能方面具有显著效果,并达到了当前最优水平。进一步分析表明,性能的显著提升主要源于依存句法树所提供的依存关系及长距离交互信息。
代码仓库
allanj/ner_with_dependency
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| chinese-named-entity-recognition-on-ontonotes-2 | DGLSTM-CRF | F1: 79.92 |
| named-entity-recognition-ner-on-conll-2003 | DGLSTM-CRF + ELMo (L=2) 3.0pt1-4.51.5 | F1: 92.4 |
| named-entity-recognition-ner-on-ontonotes-v5 | DGLSTM-CRF + ELMo | F1: 89.88 |
| named-entity-recognition-ner-on-ontonotes-v5 | DGLSTM-CRF (L=2) | F1: 88.52 |