8 个月前

摘要

预训练大型语言模型（LLMs）在自然语言处理（NLP）的许多子领域中得到广泛应用，并通常被认为是在特定任务示例下表现出色的少样本学习器。值得注意的是，链式思维（Chain of Thought, CoT）提示是一种通过逐步答案示例来激发复杂多步骤推理的最新技术，在算术和符号推理等难以遵循标准扩展定律的系统2任务中取得了最先进的性能。尽管这些成功通常归因于LLMs的少样本学习能力，但我们展示了通过在每个答案前简单添加“让我们一步一步思考”，LLMs也能成为不错的零样本推理器。实验结果表明，我们的零样本链式思维（Zero-shot-CoT），使用相同的单个提示模板，在多种基准推理任务上显著超越了零样本LLM的表现，包括算术（MultiArith、GSM8K、AQUA-RAT、SVAMP）、符号推理（最后一个字母、硬币翻转）和其他逻辑推理任务（日期理解、追踪乱序对象），而无需任何手工制作的少样本示例。例如，使用大型InstructGPT模型（text-davinci-002），在MultiArith上的准确率从17.7%提高到78.7%，在GSM8K上的准确率从10.4%提高到40.7%；使用另一个现成的大型模型PaLM（540B参数），也获得了类似的提升幅度。这种单一提示在非常多样化的推理任务中的通用性暗示了LLMs尚未被充分利用和研究的基础零样本能力，表明简单的提示可能提取出高层次、多任务广泛的认知能力。我们希望我们的工作不仅为具有挑战性的推理基准提供最强大的零样本基线，还强调了在构建微调数据集或少样本示例之前仔细探索和分析LLMs内部隐藏的巨大零样本知识的重要性。

源 PDF