6 个月前

摘要

尽管大型语言模型（LLMs）在语言理解与交互式决策任务中展现出卓越的能力，但其在推理（如思维链提示，chain-of-thought prompting）与行动（如动作规划生成）方面的能力长期以来主要被作为独立议题进行研究。本文提出一种新的方法——ReAct，旨在以交错方式进行推理轨迹与任务特定动作的联合生成，从而实现两者之间的更强协同效应：推理轨迹帮助模型推导、追踪并动态更新行动规划，同时有效应对异常情况；而具体动作则使模型能够与外部资源（如知识库或环境）交互，获取额外信息以支持决策。我们将ReAct方法应用于一系列多样化的语言理解与决策任务，实证表明其性能显著优于当前最先进的基线方法，并在人类可解释性与可信度方面优于缺乏推理或行动机制的模型。具体而言，在问答任务（HotpotQA）与事实验证任务（Fever）中，ReAct通过与简单的维基百科API交互，有效缓解了传统思维链推理中常见的幻觉（hallucination）与错误传播问题，生成更接近人类思维过程的任务求解轨迹，其可解释性显著优于缺乏推理轨迹的基线模型。在两个交互式决策基准测试（ALFWorld与WebShop）中，ReAct分别以绝对成功率超越模仿学习与强化学习方法34%与10%，且仅需一至两个上下文示例进行提示。项目主页及代码地址：https://react-lm.github.io

源 PDF