
摘要
检索增强生成(Retrieval-Augmented Generation, RAG)是一种广泛采用的方法,通过将大型语言模型(Large Language Models, LLM)与私有文档知识库相结合,构建生成式问答(Generative Question-Answering, Q&A)系统。然而,随着文档语料库规模的不断增大,RAG系统的准确性面临日益严峻的挑战。在这一过程中,检索器(Retriever)的作用尤为关键,其性能直接决定了从大规模语料库中提取最相关文档的能力,进而影响LLM生成答案的上下文质量。本文提出了一种名为“混合RAG”(Blended RAG)的新方法,该方法融合了语义搜索技术,包括密集向量索引(Dense Vector Indexes)与稀疏编码器索引(Sparse Encoder Indexes),并结合混合查询策略,以提升检索效果。实验结果表明,该方法在多个信息检索(Information Retrieval, IR)基准数据集上,如Natural Questions(NQ)和TREC-COVID数据集,均取得了更优的检索性能,并树立了新的性能基准。进一步地,我们将这一“混合检索器”(Blended Retriever)集成至RAG系统中,在生成式问答数据集SQUAD上的实验显示,其表现显著优于传统方法,甚至超越了微调(fine-tuning)策略的性能,展现出强大的生成能力与泛化潜力。
代码仓库
ibm-ecosystem-engineering/blended-rag
官方
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| open-domain-question-answering-on-squad1-1 | Blended RAG | EM: 57.63 |
| question-answering-on-natural-questions | Blended RAG | EM: 42.63 |
| question-answering-on-nq-beir | Blended RAG | nDCG@10: 0.67 |
| question-answering-on-squad-1 | Blended RAG | Exact Match: 57.63 |