
摘要
从文本中提取感兴趣类型的实体和关系对于理解大规模文本语料库至关重要。传统上,实体关系抽取系统依赖于人工标注的语料库进行训练,并采用逐步流水线的方式。这些系统在移植到新领域时需要额外的人工专业知识,并且容易受到流水线中错误级联的影响。本文研究了通过从知识库中启发式获取标记数据(即远监督)来联合抽取类型化的实体和关系的方法。由于我们的远监督类型标注算法不考虑上下文,因此噪声训练数据对任务提出了独特的挑战。我们提出了一种新颖的领域无关框架,称为CoType,该框架运行一种基于数据驱动的文本分段算法以提取实体提及,并将实体提及、关系提及、文本特征和类型标签共同嵌入到两个低维空间(分别用于实体提及和关系提及),在每个空间中,类型相近的对象也将具有相似的表示。然后,CoType利用这些学习到的嵌入来估计测试(不可链接)提及的类型。我们构建了一个联合优化问题,从文本语料库和知识库中学习嵌入,采用了针对噪声标记数据的新颖部分标签损失函数,并引入了一个对象“转换”函数来捕捉实体和关系之间的相互约束。在三个公开数据集上的实验表明,CoType在不同领域(如新闻、生物医学)中的有效性,相比次优方法平均提高了25%的F1分数。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| relation-extraction-on-nyt11-hrl | Cotype | F1: 43 |