
摘要
基于序列标注的命名实体识别(NER)方法限制每个词最多属于一个实体提及,这在识别嵌套实体提及时会遇到严重问题。本文提出通过建模并利用实体提及的主词驱动短语结构来解决这一问题,即尽管一个提及可以包含其他提及,但它们不会共享相同的主词。具体而言,我们提出了锚点区域网络(Anchor-Region Networks, ARNs),这是一种用于嵌套提及检测的序列到片段架构。ARNs首先识别所有提及的锚点词(即可能的主词),然后通过利用常规短语结构来识别每个锚点词的提及边界。此外,我们还设计了包损失函数(Bag Loss),这是一种可以在没有使用任何锚点词注释的情况下以端到端的方式训练ARNs的目标函数。实验结果表明,ARNs在三个标准的嵌套实体提及检测基准上达到了最先进的性能。
代码仓库
sanmusunrise/ARNs
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-on-ace-2005 | Anchor-Region Networks | F1: 74.9 |
| named-entity-recognition-on-genia | Anchor-Region Networks | F1: 74.8 |
| nested-mention-recognition-on-ace-2005 | Anchor-Region Networks | F1: 74.9 |
| nested-named-entity-recognition-on-ace-2005 | Anchor-Region Networks | F1: 75.9 |
| nested-named-entity-recognition-on-genia | Anchor-Region Networks | F1: 74.8 |