Aojun ZhouKe WangZimu LuWeikang ShiSichun LuoZipeng QinShaoqing LuAnya JiaLinqi SongMingjie ZhanHongsheng Li

摘要
近年来,以GPT-4和PaLM-2为代表的大型语言模型(LLMs)在解决数学推理问题方面取得了显著进展。特别是OpenAI推出的最新版本GPT-4——GPT-4代码解释器(GPT-4 Code Interpreter),在多个具有挑战性的数学数据集上表现出卓越性能。本文通过引入对GPT-4代码解释器在代码使用频率(Code Usage Frequency)上的不同约束,系统探究了代码生成与执行对其推理能力的增强作用。研究发现,该模型的成功主要归因于其强大的代码生成与执行能力、对代码执行结果的评估能力,以及在接收到不合理输出时自动修正自身解答的能力。基于这一洞察,本文提出一种新颖且高效的提示方法——显式代码自验证(Explicit Code-based Self-Verification, CSV),以进一步提升GPT-4代码解释器的数学推理潜力。该方法采用零样本提示(zero-shot prompt)引导模型利用代码对自身答案进行自验证。当验证结果状态为“False”时,模型将自动修正其解题过程,这一机制类似于人类在数学考试中发现错误后进行纠错的行为。此外,我们还发现验证结果的状态可有效反映模型对解题结果的信心程度,从而显著提升多数投票(majority voting)机制的可靠性。结合GPT-4代码解释器与CSV方法,我们在MATH数据集上实现了令人瞩目的零样本准确率提升:从原始的53.9%提升至84.3%。
代码仓库
kipok/nemo-skills
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-math | GPT-4-code model (CSV, w/ code, SC, k=16) | Accuracy: 84.3 |
| math-word-problem-solving-on-math | LogicNet (with code interpreter) | Accuracy: 71.2 |
| math-word-problem-solving-on-math | GPT-4-code model (w/o code) | Accuracy: 60.8 |
| math-word-problem-solving-on-math | GPT-4-code model (w/ code) | Accuracy: 69.7 |
| math-word-problem-solving-on-math | GPT-4-code model (CSV, w/ code) | Accuracy: 73.5 |