3 个月前

重新审视远程监督关系抽取中的负样本数据

重新审视远程监督关系抽取中的负样本数据

摘要

远程监督(Distant Supervision)能够自动为关系抽取任务生成大量训练样本,但同时也带来了两个主要问题:标签噪声和训练数据不平衡。以往的研究更多关注于减少错误标注的关系(即假阳性),而较少探讨由于知识库不完整所导致的关系缺失问题(即假阴性)。此外,在以往的问题设定中,负样本的数量远远超过正样本。本文首先对负样本所引发的上述挑战进行了全面分析;随后,将关系抽取问题重新建模为正样本-未标注样本学习(Positive Unlabeled Learning)任务,以缓解假阴性问题;第三,提出一种名为 \textsc{ReRe} 的流水线方法,该方法先进行句子级关系检测,再进行主体/客体抽取,从而实现高效的样本利用。实验结果表明,所提出的方法在各项指标上均显著优于现有方法,即使在大量假阳性样本的干扰下,仍能保持优异的性能。

代码仓库

基准测试

基准方法指标
relation-extraction-on-nyt10-hrlHRL Takanobu et al. (2019)
F1: 64.4
relation-extraction-on-nyt10-hrlReRe
F1: 73.95
relation-extraction-on-nyt10-hrlReRe (exact)
F1: 73.4
relation-extraction-on-nyt10-hrlTPLinker Wang et al. (2020)*
F1: 72.45
relation-extraction-on-nyt10-hrlCasRel (exact)
F1: 70.11
relation-extraction-on-nyt10-hrlTPLinker Wang et al. (2020)*(exact)
F1: 71.93
relation-extraction-on-nyt11-hrlHRL
F1: 53.8
relation-extraction-on-nyt11-hrlReRe (exact)
F1: 55.47
relation-extraction-on-nyt11-hrlRERE
F1: 56.23
relation-extraction-on-nyt21CasRel (exact)
F1: 54.78
relation-extraction-on-nyt21ReRe (exact)
F1: 58.88
relation-extraction-on-nyt21TPLinker(exact)
F1: 57.33
relation-extraction-on-nyt21ReRe
F1: 59.62
relation-extraction-on-skeCasRel (exact)
F1: 86.45
relation-extraction-on-skeReRe (exact)
F1: 87.21
relation-extraction-on-skeTPLinker (exact)
F1: 84.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视远程监督关系抽取中的负样本数据 | 论文 | HyperAI超神经