
摘要
大型推理模型(LRMs)如OpenAI-o1通过大规模强化学习展示了令人印象深刻的长步骤推理能力。然而,这些扩展的推理过程常常因知识不足而受到困扰,导致频繁的不确定性及潜在错误。为了解决这一局限性,我们引入了Search-o1框架,该框架通过代理检索增强生成(RAG)机制和文档内推理模块来提升LRMs的性能。Search-o1将代理搜索工作流程整合到推理过程中,当LRMs遇到不确定的知识点时,能够动态检索外部知识。此外,由于检索到的文档通常较为冗长,我们设计了一个独立的文档内推理模块,在将信息注入推理链之前对其进行深入分析,以减少噪声并保持连贯的推理流程。在科学、数学和编程领域的复杂推理任务以及六个开放域问答基准测试中进行的广泛实验表明,Search-o1表现出强大的性能。这种方法增强了LRMs在复杂推理任务中的可信度和适用性,为更加可靠和多样的智能系统铺平了道路。代码可在https://github.com/sunnynexus/Search-o1获取。
代码仓库
sunnynexus/search-o1
官方
GitHub 中提及
terrierteam/pyterrier_rag
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-livecodebench | Search-o1 | Acc: 33 |
| mathematical-reasoning-on-aime24 | Search-o1 | Acc: 56.7 |
| mathematical-reasoning-on-math500 | Search-o1 | Acc: 86.4 |
| question-answering-on-natural-questions | Search-o1 | EM: 34 |
| question-answering-on-triviaqa | Search-o1 | F1: 74.1 |