3 个月前

GSM-Plus:评估LLM作为数学问题求解器鲁棒性的综合基准

GSM-Plus:评估LLM作为数学问题求解器鲁棒性的综合基准

摘要

大型语言模型(LLMs)在各类数学推理基准测试中已展现出令人瞩目的性能。然而,关于这些模型是否真正理解并应用数学知识,还是仅依赖于捷径进行数学推理,学术界正展开日益激烈的讨论。一个关键且频繁出现的证据是:当数学题目发生细微变化时,LLMs 常常表现出错误的行为。这一现象促使我们通过测试大量题目变体,系统评估 LLMs 数学推理能力的鲁棒性。为此,我们提出了对抗性小学数学数据集(GSM-Plus),该数据集在 GSM8K 的基础上,通过引入多种数学扰动进行扩展。我们在 25 个 LLM 与 4 种提示技术上开展实验,结果表明,尽管不同模型在数学推理能力上存在差异,但其表现远未达到稳健水平。特别是,即使在 GSM8K 中已被正确解答的问题,当引入新的陈述或改变问题目标时,LLMs 仍可能产生错误。此外,我们进一步探究了通过组合现有提示方法是否能够提升模型的鲁棒性。为此,我们尝试了一种迭代式方法:基于推理目标与计算结果,逐层生成并验证每个中间推理步骤,以增强推理过程的可靠性。

代码仓库

qtli/gsm-plus
官方
GitHub 中提及

基准测试

基准方法指标
math-word-problem-solving-on-gsm-plusGPT-4
1:1 Accuracy: 85.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GSM-Plus:评估LLM作为数学问题求解器鲁棒性的综合基准 | 论文 | HyperAI超神经