
摘要
我们提出了一种用于命名实体识别(NER)的双编码器框架,该框架通过对比学习将候选文本片段和实体类型映射到同一向量表示空间。以往的研究主要将NER视为序列标注或片段分类问题。而我们则将其构架为一个表示学习问题,旨在最大化实体提及与其类型之间的向量表示相似度。这使得处理嵌套和扁平的NER变得容易,并且可以更好地利用噪声自监督信号。对于这种双编码器形式的NER,一个主要挑战在于区分非实体片段与实体提及。不同于大多数先前方法中显式地将所有非实体片段标记为同一类$\texttt{Outside}$($\texttt{O}$),我们引入了一种新颖的动态阈值损失函数。实验表明,我们的方法在有监督和远距离监督设置下均表现良好,无论是处理嵌套还是扁平的NER任务,在通用领域的标准数据集(如ACE2004、ACE2005)以及高价值垂直领域(如生物医学领域的GENIA、NCBI、BC5CDR、JNLPBA)中都建立了新的最先进水平。我们在github.com/microsoft/binder上发布了代码。
代码仓库
microsoft/binder
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| named-entity-recognition-ner-on-bc5cdr | BINDER | F1: 91.9 |
| named-entity-recognition-ner-on-jnlpba | BINDER | F1: 80.3 |
| nested-named-entity-recognition-on-ace-2004 | BINDER | F1: 88.7 |
| nested-named-entity-recognition-on-ace-2005 | BINDER | F1: 89.5 |
| nested-named-entity-recognition-on-genia | BINDER | F1: 80.5 |