4 个月前

大型语言模型是零样本推理器

大型语言模型是零样本推理器

摘要

预训练大型语言模型(LLMs)在自然语言处理(NLP)的许多子领域中得到广泛应用,并通常被认为是在特定任务示例下表现出色的少样本学习器。值得注意的是,链式思维(Chain of Thought, CoT)提示是一种通过逐步答案示例来激发复杂多步骤推理的最新技术,在算术和符号推理等难以遵循标准扩展定律的系统2任务中取得了最先进的性能。尽管这些成功通常归因于LLMs的少样本学习能力,但我们展示了通过在每个答案前简单添加“让我们一步一步思考”,LLMs也能成为不错的零样本推理器。实验结果表明,我们的零样本链式思维(Zero-shot-CoT),使用相同的单个提示模板,在多种基准推理任务上显著超越了零样本LLM的表现,包括算术(MultiArith、GSM8K、AQUA-RAT、SVAMP)、符号推理(最后一个字母、硬币翻转)和其他逻辑推理任务(日期理解、追踪乱序对象),而无需任何手工制作的少样本示例。例如,使用大型InstructGPT模型(text-davinci-002),在MultiArith上的准确率从17.7%提高到78.7%,在GSM8K上的准确率从10.4%提高到40.7%;使用另一个现成的大型模型PaLM(540B参数),也获得了类似的提升幅度。这种单一提示在非常多样化的推理任务中的通用性暗示了LLMs尚未被充分利用和研究的基础零样本能力,表明简单的提示可能提取出高层次、多任务广泛的认知能力。我们希望我们的工作不仅为具有挑战性的推理基准提供最强大的零样本基线,还强调了在构建微调数据集或少样本示例之前仔细探索和分析LLMs内部隐藏的巨大零样本知识的重要性。

代码仓库

zongqianwu/st-cot
pytorch
GitHub 中提及
kojima-takeshi188/zero_shot_cot
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
arithmetic-reasoning-on-gsm8kText-davinci-002-175B (zero-plus-few-Shot-cot (8 samples))
Accuracy: 51.5
Parameters (Billion): 175
arithmetic-reasoning-on-gsm8kPaLM 540B (few-shot)
Accuracy: 17.9
Parameters (Billion): 540
arithmetic-reasoning-on-gsm8kFinetuned GPT-3 175B + verifier
Accuracy: 55.0
Parameters (Billion): 175
arithmetic-reasoning-on-gsm8ktext-davinci-002 175B (0-shot, CoT)
Accuracy: 40.7
Parameters (Billion): 175
arithmetic-reasoning-on-gsm8kText-davinci-002-175B (0-shot)
Accuracy: 10.4
Parameters (Billion): 175
arithmetic-reasoning-on-gsm8kPaLM-540B (few-Shot-cot)
Accuracy: 58.1
Parameters (Billion): 540
arithmetic-reasoning-on-gsm8ktext-davinci-002 175B (2-shot, CoT)
Accuracy: 41.3
Parameters (Billion): 175
arithmetic-reasoning-on-multiarithText-davinci-002 (175B) (zero-shot)
Accuracy: 17.7
arithmetic-reasoning-on-multiarithText-davinci-002 (175B)(zero-shot-cot)
Accuracy: 78.7
common-sense-reasoning-on-recordGPT-3 175B (one-shot)
F1: 90.2
math-word-problem-solving-on-svampPaLM (zero-shot)
Execution Accuracy: 58.8
math-word-problem-solving-on-svampPaLM (zero-shot, CoT)
Execution Accuracy: 62.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型语言模型是零样本推理器 | 论文 | HyperAI超神经