3 个月前

STaR:通过推理进行推理的自举

STaR:通过推理进行推理的自举

摘要

逐步生成“思维链”(chain-of-thought)推理过程,能够显著提升语言模型在数学推理或常识问答等复杂推理任务上的表现。然而,当前促使语言模型生成推理过程,通常需要构建大规模的推理数据集,或在仅使用少样本推理(few-shot inference)的情况下牺牲模型准确率。为此,我们提出一种新技术——“自教推理器”(Self-Taught Reasoner, STaR),该技术通过迭代利用少量推理示例和一个大规模无推理标注的数据集,逐步提升模型执行越来越复杂推理的能力。STaR 的核心是一个简单的循环机制:首先,基于少量推理示例作为提示(prompt),生成大量问题的推理过程并得出答案;若生成的答案错误,则以正确答案为条件,重新尝试生成更合理的推理过程;随后,对所有最终得出正确答案的推理过程进行微调;最后,重复上述步骤。实验表明,相较于直接微调模型以预测最终答案的方法,STaR 在多个数据集上的性能均显著提升,其表现甚至可与在常识问答数据集(CommonsenseQA)上对一个规模大 30 倍的先进语言模型进行微调相媲美。因此,STaR 使模型能够通过自身生成的推理过程进行自我学习与迭代优化,实现持续的性能提升。

代码仓库

基准测试

基准方法指标
common-sense-reasoning-on-commonsenseqaSTaR without Rationalization (on GPT-J)
Accuracy: 68.8
common-sense-reasoning-on-commonsenseqaFew-shot CoT GPT-J
Accuracy: 36.6
common-sense-reasoning-on-commonsenseqaSTaR (on GPT-J)
Accuracy: 72.3
common-sense-reasoning-on-commonsenseqaGPT-J Direct Finetuned
Accuracy: 60.0
common-sense-reasoning-on-commonsenseqaFew-shot CoT LaMDA 137B
Accuracy: 55.6
common-sense-reasoning-on-commonsenseqaFew-shot Direct GPT-J
Accuracy: 20.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
STaR:通过推理进行推理的自举 | 论文 | HyperAI超神经