
摘要
近期的实体与关系抽取研究主要聚焦于如何从预训练编码器中获取更优的片段(span)表示。然而,现有方法的一个主要局限在于忽略了片段(对)之间的相互关联。为此,本文提出一种新颖的片段表示方法——打包浮点标记(Packed Levitated Markers, PL-Marker),通过在编码器中策略性地打包标记,显式建模片段间的相互关系。具体而言,我们提出一种面向邻域的打包策略,将相邻片段作为一个整体进行处理,以更准确地捕捉实体边界信息。此外,针对更为复杂的片段对分类任务,我们设计了一种面向主语的打包策略,将每个主语及其所有相关宾语进行打包,从而有效建模同一主语下片段对之间的内在关联。实验结果表明,得益于增强的标记特征,所提模型在六个命名实体识别(NER)基准上均优于现有基线方法;在ACE04和ACE05数据集上,相较先前最先进模型,关系抽取的严格F1值提升达4.1%–4.3%,同时运行速度更高。
代码仓库
tomaarsen/spanmarkerner
pytorch
GitHub 中提及
thunlp/pl-marker
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| joint-entity-and-relation-extraction-on | PL-Marker | Cross Sentence: Yes Entity F1: 69.9 RE+ Micro F1: 41.6 Relation F1: 53.2 |
| named-entity-recognition-ner-on-conll-2003 | PL-Marker | F1: 94.0 |
| named-entity-recognition-ner-on-ontonotes-v5 | PL-Marker | F1: 91.9 Precision: 92.0 Recall: 91.7 |
| named-entity-recognition-on-few-nerd-sup | PL-Marker | F1-Measure: 70.9 Precision: 71.2 Recall: 70.6 |
| relation-extraction-on-ace-2004 | PL-Marker | Cross Sentence: Yes NER Micro F1: 90.4 RE Micro F1: 69.7 RE+ Micro F1: 66.5 |
| relation-extraction-on-ace-2005 | PL-Marker | Cross Sentence: Yes NER Micro F1: 91.1 RE Micro F1: 73.0 RE+ Micro F1: 71.1 Sentence Encoder: ALBERT |