4 个月前

从句子集合到文档:通过机器阅读理解实现远监督关系抽取

从句子集合到文档:通过机器阅读理解实现远监督关系抽取

摘要

远程监督(Distant Supervision, DS)是一种有前景的关系抽取方法,但通常会受到标签噪声问题的影响。传统的DS方法通常将实体对表示为一组句子,并使用多实例学习技术来去噪标签。然而,基于包的范式无法充分利用句子间层面和实体层面的证据进行关系抽取,且其去噪算法往往专门化且复杂。本文提出了一种新的DS范式——文档级远程监督,该方法将关系抽取建模为基于文档的机器阅读理解(Machine Reading Comprehension, MRC)任务。通过重新组织有关某个实体的所有句子为一个文档,并通过关系特定的问题查询该文档来抽取关系,文档级DS范式可以同时编码并利用所有句子层面、句子间层面和实体层面的证据。此外,我们设计了一种新的损失函数——DSLoss(远程监督损失),该函数能够仅使用$\langle$文档, 问题, 答案$\rangle$三元组有效训练MRC模型,从而从本质上解决标签噪声问题。实验结果表明,我们的方法在远程监督性能方面达到了新的最先进水平。

代码仓库

lingyongyan/docds
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
relationship-extraction-distant-supervised-on-2DocDS
P@100: 0.939
P@200: 0.889
P@300: 0.873
PR AUC: 0.595

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从句子集合到文档:通过机器阅读理解实现远监督关系抽取 | 论文 | HyperAI超神经