
摘要
从句子级向文档级推进,关系抽取(Relation Extraction, RE)研究面临文本长度增加以及实体间交互关系更加复杂的挑战。因此,如何有效编码关键信息源——相关上下文与实体类型——变得尤为困难。然而,现有方法在训练过程中仅隐式地学习建模这些关键信息源,导致其存在监督信号效率低下以及模型预测缺乏可解释性等问题。相比之下,本文提出一种显式指导模型捕捉相关上下文与实体类型的新方法——通过监督与增强中间步骤(Supervising and Augmenting Intermediate Steps, SAIS)来实现关系抽取。基于一系列精心设计的多样化任务,所提出的SAIS方法不仅因更有效的监督机制而提升了关系抽取的质量,还能更准确地检索出支持性证据,从而显著增强模型的可解释性。此外,通过评估模型不确定性,SAIS进一步结合基于证据的数据增强与集成推理策略,在提升性能的同时有效降低了计算开销。最终,SAIS在三个主流基准数据集(DocRED、CDR 和 GDA)上均取得了当前最优的性能表现,在DocRED上的证据检索任务中,F1分数相对第二名提升了5.04%。
代码仓库
xiaoyuxin1002/sais
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-cdr | SAISORE+CR+ET-SciBERT | F1: 79 |
| relation-extraction-on-docred | SAIS-BERT-base | F1: 62.77 Ign F1: 60.96 |
| relation-extraction-on-docred | SAIS-RoBERTa-large | F1: 65.11 Ign F1: 63.44 |
| relation-extraction-on-gda | SAISORE+CR+ET-SciBERT | F1: 87.1 |