
摘要
我们探讨了通过生成思维链——即一系列中间推理步骤——如何显著提升大型语言模型执行复杂推理的能力。特别地,我们展示了在足够大的语言模型中,仅通过一种称为“思维链提示”(chain of thought prompting)的简单方法,便可自然地涌现出此类推理能力:即在提示中提供少量思维链示范作为示例。在三个大型语言模型上的实验表明,思维链提示显著提升了模型在算术推理、常识推理和符号推理等多种任务上的表现。其实际性能提升尤为显著:例如,仅使用八个思维链示例对一个参数规模达5400亿的语言模型进行提示,即可在数学应用题基准测试GSM8K上达到当前最优水平,甚至超越经过微调且配备验证器的GPT-3模型。
代码仓库
thudm/chatglm2-6b
pytorch
GitHub 中提及
mbzuai-clear/ioe-prompting
GitHub 中提及
thu-keg/korc
pytorch
GitHub 中提及
imnearth/coat
GitHub 中提及
mrlab-ai/NL2Plan
GitHub 中提及
scofield7419/thor-isa
pytorch
GitHub 中提及
srush/minichain
pytorch
GitHub 中提及
TianduoWang/MsAT
pytorch
GitHub 中提及
rlqja1107/torch-LLM4SGG
pytorch
GitHub 中提及
sunlab-osu/understanding-cot
pytorch
GitHub 中提及
infini-ai-lab/sirius
pytorch
GitHub 中提及
yinzhangyue/eot
pytorch
GitHub 中提及
microsoft/guidance
GitHub 中提及
nicolay-r/thor-ecac
pytorch
GitHub 中提及
lupantech/chameleon-llm
GitHub 中提及
guidance-ai/guidance
GitHub 中提及
yinzhangyue/AoR
GitHub 中提及
coldmist-lu/erroranalysis_prompt
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| common-sense-reasoning-on-commonsenseqa | Chain of thought ASDiv | Accuracy: 28.6 |
| question-answering-on-webquestions | CoT | EM: 42.5 |