3 个月前

从少到多的提示方法赋能大型语言模型实现复杂推理

从少到多的提示方法赋能大型语言模型实现复杂推理

摘要

思维链提示(Chain-of-thought prompting)在各类自然语言推理任务中已展现出卓越的性能。然而,当任务难度超过提示中所展示的示例时,该方法往往表现不佳。为应对从简单到复杂的泛化挑战,我们提出了一种新颖的提示策略——由少到多提示(least-to-most prompting)。该策略的核心思想是将复杂问题分解为一系列更简单的子问题,并按顺序逐一求解。每个子问题的求解过程均借助先前已解决子问题的答案来辅助完成。在符号操作、组合泛化以及数学推理等任务上的实验结果表明,由少到多提示能够有效推广至比提示中示例更难的问题。一个显著的发现是:当使用 GPT-3 的 code-davinci-002 模型结合由少到多提示时,仅需 14 个示例,即可在 SCAN 组合泛化基准测试的所有划分(包括长度划分)中达到至少 99% 的准确率;相比之下,使用思维链提示的准确率仅为 16%。这一结果尤为突出,因为文献中专门针对 SCAN 任务设计的神经符号模型通常需在包含超过 15,000 个样本的完整训练集上进行训练才能取得较好效果。本文附录中提供了所有任务的完整提示模板。

代码仓库

RUCAIBox/LLMBox
GitHub 中提及

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kcode-davinci-002 (Least-to-Most Prompting)
Accuracy: 68.01
Parameters (Billion): 175
question-answering-on-strategyqaLeast-to-Most
EM: 65.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从少到多的提示方法赋能大型语言模型实现复杂推理 | 论文 | HyperAI超神经