3 个月前

REBEL:基于端到端语言生成的关系抽取

REBEL:基于端到端语言生成的关系抽取

摘要

从原始文本中抽取关系三元组是信息抽取领域的一项关键任务,能够支持知识库的构建与验证、事实核查以及其他下游应用。然而,传统方法通常依赖多步骤处理流程,容易产生误差传播问题,且往往仅限于少数几类关系类型。为克服上述挑战,本文提出采用自回归序列到序列(autoregressive seq2seq)模型。这类模型此前已被证明在语言生成任务以及实体链接(Entity Linking)等自然语言理解(NLU)任务中表现优异,这得益于其被成功建模为序列到序列问题。本文展示了如何通过将关系三元组表示为文本序列,从而简化关系抽取任务,并提出了REBEL——一个基于BART架构的seq2seq模型,能够实现超过200种不同关系类型的端到端关系抽取。通过在多种关系抽取与关系分类基准数据集上进行微调,我们验证了该模型的灵活性与强大泛化能力,其在多数任务中均达到了当前最优(state-of-the-art)性能。

基准测试

基准方法指标
joint-entity-and-relation-extraction-on-3REBEL
Relation F1: 41.8
joint-entity-and-relation-extraction-on-3REBEL+pretraining
Relation F1: 47.1
relation-extraction-on-ade-corpusREBEL (including overlapping entities)
RE+ Macro F1: 82.2
relation-extraction-on-conll04REBEL
RE+ Macro F1 : 76.65
RE+ Micro F1: 75.4
relation-extraction-on-nytREBEL (no pre-training)
F1: 93.1
relation-extraction-on-re-tacredREBEL (no entity type marker)
F1: 90.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
REBEL:基于端到端语言生成的关系抽取 | 论文 | HyperAI超神经