摘要

近年来，以GPT-4和PaLM-2为代表的大型语言模型（LLMs）在解决数学推理问题方面取得了显著进展。特别是OpenAI推出的最新版本GPT-4——GPT-4代码解释器（GPT-4 Code Interpreter），在多个具有挑战性的数学数据集上表现出卓越性能。本文通过引入对GPT-4代码解释器在代码使用频率（Code Usage Frequency）上的不同约束，系统探究了代码生成与执行对其推理能力的增强作用。研究发现，该模型的成功主要归因于其强大的代码生成与执行能力、对代码执行结果的评估能力，以及在接收到不合理输出时自动修正自身解答的能力。基于这一洞察，本文提出一种新颖且高效的提示方法——显式代码自验证（Explicit Code-based Self-Verification, CSV），以进一步提升GPT-4代码解释器的数学推理潜力。该方法采用零样本提示（zero-shot prompt）引导模型利用代码对自身答案进行自验证。当验证结果状态为“False”时，模型将自动修正其解题过程，这一机制类似于人类在数学考试中发现错误后进行纠错的行为。此外，我们还发现验证结果的状态可有效反映模型对解题结果的信心程度，从而显著提升多数投票（majority voting）机制的可靠性。结合GPT-4代码解释器与CSV方法，我们在MATH数据集上实现了令人瞩目的零样本准确率提升：从原始的53.9%提升至84.3%。

源 PDF