Fabio PetroniAleksandra PiktusAngela FanPatrick LewisMajid YazdaniNicola De CaoJames ThorneYacine JerniteVladimir KarpukhinJean MaillardVassilis PlachourasTim RocktäschelSebastian Riedel

摘要
诸如开放域问答、事实核查、槽位填充和实体链接等挑战性任务,通常需要访问大规模的外部知识源。尽管某些模型在单一任务上表现优异,但构建通用模型却面临巨大困难,因为每项任务往往需要对特定知识源进行计算成本高昂的索引处理,同时还需配套的专用基础设施支持。为推动基于大规模文本资源中特定信息进行条件建模的研究,我们提出了一个面向知识密集型语言任务的基准测试平台——KILT。KILT中的所有任务均基于同一份维基百科快照构建,通过复用组件显著降低了工程开发周期,同时加速了与任务无关的记忆架构研究。我们测试了任务特定模型与通用基线模型,不仅评估其下游任务性能,还考察了模型提供证据来源(provenance)的能力。实验结果表明,采用共享的密集向量索引结合序列到序列(seq2seq)模型构成的基线方法表现强劲,在事实核查、开放域问答和对话任务中优于更定制化的方案,并在实体链接与槽位填充任务上取得了具有竞争力的结果,其优势在于能够生成消歧后的文本内容。KILT的数据与代码已开源,可通过 https://github.com/facebookresearch/KILT 获取。
代码仓库
zouharvi/kb-shrink
pytorch
GitHub 中提及
facebookresearch/KILT
官方
GitHub 中提及
facebookresearch/editeval
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| entity-linking-on-kilt-aida-yago2 | T5-base | Accuracy: 74.05 KILT-AC: 74.05 R-Prec: 74.05 Recall@5: 74.05 |
| entity-linking-on-kilt-wned-cweb | T5-base | Accuracy: 49.29 KILT-AC: 49.29 R-Prec: 49.29 Recall@5: 49.29 |
| entity-linking-on-kilt-wned-wiki | T5-base | Accuracy: 47.13 KILT-AC: 47.13 R-Prec: 47.13 Recall@5: 47.13 |
| fact-verification-on-kilt-fever | T5-base | Accuracy: 76.3 KILT-AC: 0.0 R-Prec: 0.0 Recall@5: 0.0 |
| fact-verification-on-kilt-fever | RAG | Accuracy: 86.31 KILT-AC: 53.45 R-Prec: 61.94 Recall@5: 75.55 |
| open-domain-dialog-on-kilt-wizard-of | T5-base | F1: 13.53 KILT-F1: 0.0 KILT-RL: 0.0 R-Prec: 0.0 ROUGE-L: 12.4 Recall@5: 0.0 |
| open-domain-question-answering-on-kilt | T5-base | EM: 19.6 F1: 27.73 KILT-EM: 0.0 KILT-F1: 0.0 R-Prec: 0.0 Recall@5: 0.0 |
| open-domain-question-answering-on-kilt-1 | T5-base | EM: 12.64 F1: 19.57 KILT-EM: 0.0 KILT-F1: 0.0 R-Prec: 0.0 Recall@5: 0.0 |
| open-domain-question-answering-on-kilt-2 | T5-base | EM: 18.11 F1: 27.83 KILT-EM: 0.0 KILT-F1: 0.0 R-Prec: 0.0 Recall@5: 0.0 |
| open-domain-question-answering-on-kilt-eli5 | T5-base | F1: 16.1 KILT-F1: 0.0 KILT-RL: 0.0 R-Prec: 0.0 ROUGE-L: 19.08 Recall@5: 0.0 |
| question-answering-on-kilt-eli5 | BART+DPR | F1: 17.88 Rouge-L: 17.41 |
| question-answering-on-kilt-eli5 | T5-base | F1: 16.1 Rouge-L: 19.08 |
| question-answering-on-kilt-eli5 | RAG | F1: 14.51 Rouge-L: 14.05 |
| slot-filling-on-kilt-t-rex | T5-base | Accuracy: 43.56 F1: 50.61 KILT-AC: 0.0 KILT-F1: 0.0 R-Prec: 0.0 Recall@5: 0.0 |
| slot-filling-on-kilt-zero-shot-re | T5-base | Accuracy: 9.02 F1: 13.52 KILT-AC: 0.0 KILT-F1: 0.0 R-Prec: 0.0 Recall@5: 0.0 |