
摘要
文档级关系抽取是一项具有挑战性的任务,需要对文档中多个句子进行推理,以预测其中的实体间关系。本文提出了一种联合训练框架——E2GRE(实体与证据引导的关系抽取),用于解决该问题。首先,我们引入了以实体为导向的序列作为预训练语言模型(如BERT、RoBERTa)的输入。这些实体导向的序列有助于预训练语言模型聚焦于与特定实体相关的内容区域。其次,我们利用预训练语言模型内部的注意力概率作为额外特征,指导模型在微调过程中进行证据预测。这一新方法促使预训练语言模型更加关注实体本身以及支持性/证据性句子。我们在DocRED——一个近期发布的大型关系抽取数据集——上对E2GRE方法进行了评估。实验结果表明,该方法在公共排行榜上的各项指标上均达到了当前最优水平,充分证明了E2GRE在关系抽取与证据预测任务中兼具高效性与协同效应。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-docred | E2GRE-RoBERTa-large | F1: 62.50 Ign F1: 60.30 |
| relation-extraction-on-docred | E2GRE-BERT-base | F1: 58.72 Ign F1: 55.22 |