4 个月前

一种统一的正未标记学习框架用于不同标注水平的文档级关系抽取

一种统一的正未标记学习框架用于不同标注水平的文档级关系抽取

摘要

文档级关系抽取(RE)旨在识别多个句子中实体之间的关系。大多数先前的方法集中在完全监督下的文档级关系抽取。然而,在现实场景中,由于文档级关系抽取中的实体对数量随着实体数量的增加呈二次增长,因此完全标记文档中的所有关系既昂贵又困难。为了解决常见的不完全标记问题,我们提出了一种统一的正未标记学习框架——移位和平方排序损失正未标记(SSR-PU)学习。这是首次在文档级关系抽取中应用正未标记(PU)学习方法。考虑到数据集中的标记数据可能导致训练数据先验偏移,我们引入了在先验偏移下进行的正未标记学习。此外,通过使用非类别得分作为自适应阈值,我们提出了平方排序损失,并证明了其与多标签排序度量的贝叶斯一致性。广泛的实验表明,我们的方法在不完全标记的情况下相对于之前的基线模型提高了约14个F1分数点。此外,在完全监督和极度未标记设置下,我们的方法均优于以往的最先进结果。

代码仓库

www-ye/ssr-pu
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供