
摘要
与句子级关系抽取(RE)相比,文档级关系抽取面临新的挑战。一个文档通常包含多个实体对,而同一实体对在文档中可能多次出现,并与多个潜在关系相关联。本文提出两种新方法——自适应阈值(adaptive thresholding)和局部上下文池化(localized context pooling),以应对多标签与多实体问题。自适应阈值用可学习的、依赖于实体的阈值替代了先前方法中的全局阈值,用于多标签分类;局部上下文池化则直接利用预训练语言模型中的注意力机制,精准定位对关系判断具有价值的相关上下文信息。我们在三个文档级关系抽取基准数据集上进行了实验:DocRED,一个近期发布的大型关系抽取数据集,以及两个生物医学领域的数据集CDR和GDA。所提出的ATLOP(Adaptive Thresholding and Localized cOntext Pooling)模型在测试中取得了63.4的F1分数,并在CDR和GDA两个数据集上显著优于现有模型。
代码仓库
wzhouad/ATLOP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-cdr | SciBERT-ATLOPBASE | F1: 69.4 |
| relation-extraction-on-docred | ATLOP-BERT-base | F1: 61.30 Ign F1: 59.31 |
| relation-extraction-on-docred | ATLOP-RoBERTa-large | F1: 63.40 Ign F1: 61.39 |
| relation-extraction-on-gda | SciBERT-ATLOPBASE | F1: 83.9 |
| relation-extraction-on-redocred | ATLOP | F1: 77.56 Ign F1: 76.82 |