3 个月前

RankRAG:在LLM中统一上下文排序与检索增强生成

RankRAG:在LLM中统一上下文排序与检索增强生成

摘要

大型语言模型(LLMs)在检索增强生成(RAG)任务中通常采用检索器提供的 top-k 上下文。本文提出了一种新颖的指令微调框架 RankRAG,该框架通过单一 LLM 实现 RAG 中上下文排序与答案生成的双重目标。具体而言,仅在训练数据中加入少量排序数据,经过指令微调后的 LLM 即展现出卓越性能,显著优于现有的专用排序模型,包括那些在大量排序数据上单独微调的相同 LLM。在生成任务方面,我们将模型与多个强大基线进行对比,涵盖 GPT-4-0613、GPT-4-turbo-2024-0409 以及当前在 RAG 基准测试中表现领先的开源模型 ChatQA-1.5。实验结果表明,我们的 Llama3-RankRAG 在九个知识密集型基准测试中显著优于 Llama3-ChatQA-1.5 和 GPT-4 模型。此外,在无需在生物医学领域数据上进行指令微调的情况下,该模型在五个生物医学领域的 RAG 基准测试中表现与 GPT-4 相当,充分展现了其出色的跨领域泛化能力。

基准测试

基准方法指标
question-answering-on-natural-questionsRankRAG-llama3-70b (Zero-Shot, DPR)
EM: 50.0
question-answering-on-natural-questionsRankRAG-llama3-8b (Zero-Shot, DPR)
EM: 46.1
question-answering-on-natural-questionsRankRAG-llama3-70b (Zero-Shot, KILT)
EM: 54.2
question-answering-on-natural-questionsRankRAG-llama3-8b (Zero-Shot, KILT)
EM: 50.6
question-answering-on-pubmedqaRankRAG-llama3-70B (Zero-Shot)
Accuracy: 79.8
question-answering-on-triviaqaRankRAG-llama3-8b (Zero-Shot, KILT)
EM: 82.9
question-answering-on-triviaqaRankRAG-llama3-70b (Zero-Shot, KILT)
EM: 86.5
question-answering-on-triviaqaRankRAG-llama3-70b (Zero-Shot, DPR)
EM: 72.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RankRAG:在LLM中统一上下文排序与检索增强生成 | 论文 | HyperAI超神经