3 个月前

对齐增强的一致性多语言开放信息抽取

对齐增强的一致性多语言开放信息抽取

摘要

由于其他语言缺乏足够的训练数据,监督式开放信息抽取(OpenIE)的研究进展主要局限于英语。本文探索了自动将英文文本转换为其他语言以用于训练OpenIE系统的技术。为此,我们提出了一种名为对齐增强型约束翻译(Alignment-Augmented Constrained Translation, AACTrans)的模型,该模型能够一致地翻译英文句子及其对应的抽取结果,确保在翻译过程中不改变词汇或语义含义——这是独立翻译可能带来的问题。利用AACTrans生成的数据,我们训练了一种新型两阶段生成式OpenIE模型,命名为Gen2OIE。该模型对每个句子分两阶段输出:第一阶段识别关系,第二阶段生成包含该关系的所有信息抽取结果。Gen2OIE通过一种可推广至多种语言的训练数据转换技术,显著提升了关系覆盖范围,这与现有模型依赖英语特有训练损失的方法形成对比。在西班牙语、葡萄牙语、中文、印地语和泰卢固语共五种语言上的评估结果表明,采用AACTrans数据训练的Gen2OIE模型在F1分数上相较于先前系统取得了6%至25%的性能提升。

基准测试

基准方法指标
open-information-extraction-on-openieGEN2OIE (label-rescore)
EN-AUC: 38.9
EN-F1: 54.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
对齐增强的一致性多语言开放信息抽取 | 论文 | HyperAI超神经