3 个月前

BenchIE:一个面向多维度事实型开放信息抽取的评估框架

BenchIE:一个面向多维度事实型开放信息抽取的评估框架

摘要

对开放信息抽取(OIE)系统的内在评估通常采用两种方式:人工评估(由人工评价者判断抽取结果的正确性)或基于标准化基准的自动评估。后者虽然成本更低,但可靠性较差,主要原因在于现有OIE基准数据集的不完整性:其标准答案(ground truth)并未涵盖同一事实的所有可接受表达形式,从而导致对模型性能的评估不可靠。此外,现有的OIE基准仅适用于英语。为此,本文提出BenchIE:一个面向英语、中文和德语的OIE系统全面评估基准与评估框架。与现有基准不同,BenchIE采用基于事实的评估范式,即充分考虑抽取结果的信息等价性——其标准答案以“事实同义词集”(fact synsets)的形式组织,每个同义词集全面列举了同一事实的所有可接受表面表达形式。同时,考虑到OIE在实际下游任务中的常见应用需求,BenchIE具有多维度特性:我们构建了多个针对不同评估维度的基准变体,例如抽取结果的紧凑性或最小性等。利用BenchIE对多个前沿OIE系统进行评测,我们发现这些系统在实际表现上显著低于现有基准所显示的水平。BenchIE(包含数据与评估代码)已公开发布于 https://github.com/gkiril/benchie。

代码仓库

gkiril/benchie
官方
GitHub 中提及

基准测试

基准方法指标
open-information-extraction-on-benchieStanford OIE
F1: 0.13
Precision: 0.11
Recall: 0.16
open-information-extraction-on-benchieOpenIE6
F1: 0.25
Precision: 0.31
Recall: 0.21
open-information-extraction-on-benchieClausIE
F1: 0.34
Precision: 0.50
Recall: 0.26
open-information-extraction-on-benchieMinIE
Precision: 0.43
Recall: 0.28
open-information-extraction-on-benchieROIE-T
F1: 0.13
Precision: 0.37
Recall: 0.08
open-information-extraction-on-benchieNaive OIE
F1: 0.03
Precision: 0.03
Recall: 0.02
open-information-extraction-on-benchieM2OIE (ZH)
F1: 0.17
Precision: 0.26
Recall: 0.13
open-information-extraction-on-benchieROIE-N
F1: 0.13
Precision: 0.20
Recall: 0.09
open-information-extraction-on-benchieM2OIE (EN)
F1: 0.23
Precision: 0.39
open-information-extraction-on-benchieM2OIE (DE)
F1: 0.04
Precision: 0.09
Recall: 0.03

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BenchIE:一个面向多维度事实型开放信息抽取的评估框架 | 论文 | HyperAI超神经