
摘要
我们提出了两种用于嵌套命名实体识别(NER)的神经网络架构,在这种设置中,命名实体可以重叠并且可以被标记为多个标签。我们使用线性化方案对嵌套标签进行编码。在我们提出的第一个方法中,嵌套标签被建模为标准LSTM-CRF架构中嵌套标签笛卡尔积对应的多标签。在第二个方法中,嵌套NER被视为一个序列到序列的问题,其中输入序列为词汇,输出序列为标签,并且在预测某个词汇的标签时使用硬注意力机制。所提出的方法在四个语料库上超越了现有的嵌套NER最佳性能:ACE-2004、ACE-2005、GENIA和捷克CNEC。此外,我们还通过最近发布的上下文嵌入技术(ELMo、BERT和Flair)丰富了我们的架构,在这四个嵌套实体语料库上取得了进一步的改进。另外,我们报告了CoNLL-2002荷兰语和西班牙语以及CoNLL-2003英语的扁平NER最新结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-conll-2003 | LSTM-CRF+ELMo+BERT+Flair | F1: 93.38 |
| named-entity-recognition-on-ace-2004 | seq2seq+BERT+Flair | F1: 84.40 Multi-Task Supervision: n |
| named-entity-recognition-on-ace-2005 | seq2seq+BERT+Flair | F1: 84.33 |
| named-entity-recognition-on-conll-2002 | Straková et al., 2019 | F1: 88.8 |
| named-entity-recognition-on-conll-2002-dutch | Straková et al., 2019 | F1: 92.7 |
| named-entity-recognition-on-conll-2003-german | Straková et al., 2019 | F1: 85.1 |
| named-entity-recognition-on-genia | seq2seq+BERT+Flair | F1: 78.31 |
| nested-mention-recognition-on-ace-2004 | seq2seq+BERT+Flair | F1: 84.40 |
| nested-mention-recognition-on-ace-2005 | seq2seq+BERT+Flair | F1: 84.33 |
| nested-named-entity-recognition-on-ace-2004 | seq2seq+BERT+Flair | F1: 84.40 |
| nested-named-entity-recognition-on-ace-2005 | seq2seq+BERT+Flair | F1: 84.33 |
| nested-named-entity-recognition-on-genia | seq2seq+BERT+Flair | F1: 78.31 |