
摘要
大型语言模型(LLMs)在检索增强生成(RAG)任务中通常采用检索器提供的 top-k 上下文。本文提出了一种新颖的指令微调框架 RankRAG,该框架通过单一 LLM 实现 RAG 中上下文排序与答案生成的双重目标。具体而言,仅在训练数据中加入少量排序数据,经过指令微调后的 LLM 即展现出卓越性能,显著优于现有的专用排序模型,包括那些在大量排序数据上单独微调的相同 LLM。在生成任务方面,我们将模型与多个强大基线进行对比,涵盖 GPT-4-0613、GPT-4-turbo-2024-0409 以及当前在 RAG 基准测试中表现领先的开源模型 ChatQA-1.5。实验结果表明,我们的 Llama3-RankRAG 在九个知识密集型基准测试中显著优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外,在无需在生物医学领域数据上进行指令微调的情况下,该模型在五个生物医学领域的 RAG 基准测试中表现与 GPT-4 相当,充分展现了其出色的跨领域泛化能力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-natural-questions | RankRAG-llama3-70b (Zero-Shot, DPR) | EM: 50.0 |
| question-answering-on-natural-questions | RankRAG-llama3-8b (Zero-Shot, DPR) | EM: 46.1 |
| question-answering-on-natural-questions | RankRAG-llama3-70b (Zero-Shot, KILT) | EM: 54.2 |
| question-answering-on-natural-questions | RankRAG-llama3-8b (Zero-Shot, KILT) | EM: 50.6 |
| question-answering-on-pubmedqa | RankRAG-llama3-70B (Zero-Shot) | Accuracy: 79.8 |
| question-answering-on-triviaqa | RankRAG-llama3-8b (Zero-Shot, KILT) | EM: 82.9 |
| question-answering-on-triviaqa | RankRAG-llama3-70b (Zero-Shot, KILT) | EM: 86.5 |
| question-answering-on-triviaqa | RankRAG-llama3-70b (Zero-Shot, DPR) | EM: 72.6 |