4 个月前

教学启发的综合提示框架:一种提升大型语言模型推理能力的新方法

教学启发的综合提示框架:一种提升大型语言模型推理能力的新方法

摘要

大型语言模型(LLMs)在各个领域表现出色,但在算术推理任务上仍面临挑战。近期的研究表明,通过精心设计提示可以有效提升其推理能力。然而,这些方法忽略了成功解决大多数算术推理问题所需的先验知识,包括特定的概念、定理和技巧。为了解决这一问题,我们提出了一种新颖且有效的教学启发式集成框架,该框架模拟了教师指导学生的过程。这种方法使大型语言模型具备了必要的概念、相关定理以及类似问题的相似解法,从而促进了其推理能力的提升。此外,我们还引入了两个新的中文数据集——MathMC和MathToF,这两个数据集均包含详细的解释和答案。我们在九个基准测试中进行了实验,结果表明我们的方法提高了大型语言模型的推理准确性。结合GPT-4和我们的框架,在四个数学基准测试(AddSub、SVAMP、Math23K和AQuA)中实现了新的最先进性能,准确率分别为98.2%(+3.3%)、93.9%(+0.2%)、94.3%(+7.2%)和81.1%(+1.2%)。我们的数据和代码已发布在https://github.com/SallyTan13/Teaching-Inspired-Prompting。

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kGPT-4 (Teaching-Inspired)
Accuracy: 94.8
arithmetic-reasoning-on-mathmcGPT-4 (Teaching-Inspired)
Accuracy: 92.2
arithmetic-reasoning-on-mathtofGPT-4 (Teaching-Inspired)
Accuracy: 89.2
math-word-problem-solving-on-math23kGPT-4 (Teaching-Inspired)
Accuracy (5-fold): 94.3
math-word-problem-solving-on-svampGPT-4 (Teaching-Inspired)
Execution Accuracy: 93.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
教学启发的综合提示框架:一种提升大型语言模型推理能力的新方法 | 论文 | HyperAI超神经