3 个月前

KILT:面向知识密集型语言任务的基准测试

KILT:面向知识密集型语言任务的基准测试

摘要

诸如开放域问答、事实核查、槽位填充和实体链接等挑战性任务,通常需要访问大规模的外部知识源。尽管某些模型在单一任务上表现优异,但构建通用模型却面临巨大困难,因为每项任务往往需要对特定知识源进行计算成本高昂的索引处理,同时还需配套的专用基础设施支持。为推动基于大规模文本资源中特定信息进行条件建模的研究,我们提出了一个面向知识密集型语言任务的基准测试平台——KILT。KILT中的所有任务均基于同一份维基百科快照构建,通过复用组件显著降低了工程开发周期,同时加速了与任务无关的记忆架构研究。我们测试了任务特定模型与通用基线模型,不仅评估其下游任务性能,还考察了模型提供证据来源(provenance)的能力。实验结果表明,采用共享的密集向量索引结合序列到序列(seq2seq)模型构成的基线方法表现强劲,在事实核查、开放域问答和对话任务中优于更定制化的方案,并在实体链接与槽位填充任务上取得了具有竞争力的结果,其优势在于能够生成消歧后的文本内容。KILT的数据与代码已开源,可通过 https://github.com/facebookresearch/KILT 获取。

代码仓库

zouharvi/kb-shrink
pytorch
GitHub 中提及
facebookresearch/KILT
官方
GitHub 中提及

基准测试

基准方法指标
entity-linking-on-kilt-aida-yago2T5-base
Accuracy: 74.05
KILT-AC: 74.05
R-Prec: 74.05
Recall@5: 74.05
entity-linking-on-kilt-wned-cwebT5-base
Accuracy: 49.29
KILT-AC: 49.29
R-Prec: 49.29
Recall@5: 49.29
entity-linking-on-kilt-wned-wikiT5-base
Accuracy: 47.13
KILT-AC: 47.13
R-Prec: 47.13
Recall@5: 47.13
fact-verification-on-kilt-feverT5-base
Accuracy: 76.3
KILT-AC: 0.0
R-Prec: 0.0
Recall@5: 0.0
fact-verification-on-kilt-feverRAG
Accuracy: 86.31
KILT-AC: 53.45
R-Prec: 61.94
Recall@5: 75.55
open-domain-dialog-on-kilt-wizard-ofT5-base
F1: 13.53
KILT-F1: 0.0
KILT-RL: 0.0
R-Prec: 0.0
ROUGE-L: 12.4
Recall@5: 0.0
open-domain-question-answering-on-kiltT5-base
EM: 19.6
F1: 27.73
KILT-EM: 0.0
KILT-F1: 0.0
R-Prec: 0.0
Recall@5: 0.0
open-domain-question-answering-on-kilt-1T5-base
EM: 12.64
F1: 19.57
KILT-EM: 0.0
KILT-F1: 0.0
R-Prec: 0.0
Recall@5: 0.0
open-domain-question-answering-on-kilt-2T5-base
EM: 18.11
F1: 27.83
KILT-EM: 0.0
KILT-F1: 0.0
R-Prec: 0.0
Recall@5: 0.0
open-domain-question-answering-on-kilt-eli5T5-base
F1: 16.1
KILT-F1: 0.0
KILT-RL: 0.0
R-Prec: 0.0
ROUGE-L: 19.08
Recall@5: 0.0
question-answering-on-kilt-eli5BART+DPR
F1: 17.88
Rouge-L: 17.41
question-answering-on-kilt-eli5T5-base
F1: 16.1
Rouge-L: 19.08
question-answering-on-kilt-eli5RAG
F1: 14.51
Rouge-L: 14.05
slot-filling-on-kilt-t-rexT5-base
Accuracy: 43.56
F1: 50.61
KILT-AC: 0.0
KILT-F1: 0.0
R-Prec: 0.0
Recall@5: 0.0
slot-filling-on-kilt-zero-shot-reT5-base
Accuracy: 9.02
F1: 13.52
KILT-AC: 0.0
KILT-F1: 0.0
R-Prec: 0.0
Recall@5: 0.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
KILT:面向知识密集型语言任务的基准测试 | 论文 | HyperAI超神经