
摘要
大型语言模型(LLMs)在各类数学推理基准测试中已展现出令人瞩目的性能。然而,关于这些模型是否真正理解并应用数学知识,还是仅依赖于捷径进行数学推理,学术界正展开日益激烈的讨论。一个关键且频繁出现的证据是:当数学题目发生细微变化时,LLMs 常常表现出错误的行为。这一现象促使我们通过测试大量题目变体,系统评估 LLMs 数学推理能力的鲁棒性。为此,我们提出了对抗性小学数学数据集(GSM-Plus),该数据集在 GSM8K 的基础上,通过引入多种数学扰动进行扩展。我们在 25 个 LLM 与 4 种提示技术上开展实验,结果表明,尽管不同模型在数学推理能力上存在差异,但其表现远未达到稳健水平。特别是,即使在 GSM8K 中已被正确解答的问题,当引入新的陈述或改变问题目标时,LLMs 仍可能产生错误。此外,我们进一步探究了通过组合现有提示方法是否能够提升模型的鲁棒性。为此,我们尝试了一种迭代式方法:基于推理目标与计算结果,逐层生成并验证每个中间推理步骤,以增强推理过程的可靠性。
代码仓库
qtli/gsm-plus
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| math-word-problem-solving-on-gsm-plus | GPT-4 | 1:1 Accuracy: 85.6 |