
摘要
近期在大型语言模型(LLMs)领域的进展展示了它们在各种推理和决策任务中的卓越能力。然而,推理过程的质量和连贯性仍可从增强的内省和自我反思中获益。本文介绍了一种名为多路链式思维(Multiplex CoT,Chain of Thought)的方法,该方法通过启动双重链式思维(CoT)来模拟一种自我审查的过程。多路链式思维利用了迭代推理的力量,模型首先生成一个初始的思维链条,然后通过第二轮的思维生成对这一推理进行批评和改进。这种递归方法使得答案更加连贯、逻辑严密且稳健,从而提升了整体的决策过程。我们展示了如何通过简单的提示工程在现有的大型语言模型架构中有效实现这一方法,达到类似于学习-精炼模型(LRM)的效果,而无需额外的训练。此外,我们还提供了一份在Google Colab中实施该方法的实际指南,便于将其轻松集成到实际应用中。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gsm8k-on-gsm8k | Orange-mini | 0-shot MRR: 98 |
| mmlu-on-mmlu-pro | Orange-mini | 0-shot MRR: 99.19 |