
摘要
正如GPT-3和T5所展示的那样,随着参数空间的不断增大,变压器模型的能力也随之增强。然而,对于需要大量知识的任务,非参数化内存允许模型在计算成本和GPU内存需求呈次线性增长的情况下显著扩展。近期的模型如RAG和REALM已经将检索引入到条件生成中。这些模型从文档库中进行神经初步检索。我们在此研究方向上进一步发展,提出了Re2G,该方法将神经初步检索和重排序结合到基于BART的序列到序列生成中。我们的重排序方法还支持合并来自不同评分系统的检索结果,从而实现BM25和神经初步检索的集成。为了端到端地训练我们的系统,我们引入了一种新的知识蒸馏变体,仅使用目标序列输出的真实标签来训练初始检索、重排序器和生成器。我们在四个不同的任务中取得了显著的性能提升:零样本槽填充、问答、事实核查和对话,相对于KILT排行榜上的先前最先进水平,相对增益为9%至34%。我们已将代码开源发布在https://github.com/IBM/kgi-slot-filling/tree/re2g。
代码仓库
ibm/kgi-slot-filling
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fact-verification-on-kilt-fever | Re2G | Accuracy: 89.55 KILT-AC: 78.53 R-Prec: 88.92 Recall@5: 92.52 |
| open-domain-dialog-on-kilt-wizard-of | Re2G | F1: 18.9 KILT-F1: 12.98 KILT-RL: 11.39 R-Prec: 60.1 ROUGE-L: 16.76 Recall@5: 79.98 |
| open-domain-question-answering-on-kilt | Re2G | EM: 51.73 F1: 60.97 KILT-EM: 43.56 KILT-F1: 49.8 R-Prec: 70.78 Recall@5: 76.63 |
| open-domain-question-answering-on-kilt-2 | Re2G | EM: 76.27 F1: 81.4 KILT-EM: 57.91 KILT-F1: 61.78 R-Prec: 72.68 Recall@5: 74.23 |
| slot-filling-on-kilt-t-rex | Re2G | Accuracy: 87.68 F1: 89.93 KILT-AC: 75.84 KILT-F1: 77.05 R-Prec: 80.7 Recall@5: 89.0 |