3 个月前

语言模型中组合性差距的测量与缩小

语言模型中组合性差距的测量与缩小

摘要

我们研究了语言模型在组合性推理任务中的表现,这类任务的最终解答依赖于对子问题答案的正确组合。我们通过衡量模型能够正确回答所有子问题但无法生成整体答案的频率,来评估这一能力,该比率被称为“组合性差距”(compositionality gap)。为评估这一差距,我们提出了需要多跳推理的复杂问题,其答案需整合多个在预训练阶段极少共同出现的事实。在GPT-3系列模型中,随着模型规模的增大,我们发现单跳问答性能的提升速度远超多跳推理性能的提升,因此组合性差距并未缩小。这一出人意料的结果表明,尽管更强大的模型能够记忆并召回更多事实性知识,但在执行此类组合性推理方面却未表现出相应的进步。随后,我们展示了通过诱发式提示(如思维链,Chain-of-Thought)可有效缩小组合性差距,因为该方法促使模型进行显式推理。我们提出了一种新方法——自问(Self-Ask),其在思维链的基础上进一步优化。在该方法中,模型在回答初始问题之前,会主动提出并回答一系列后续问题,从而逐步构建推理路径。最后,我们证明,自问所采用的结构化提示机制,使得我们能够轻松集成搜索引擎来解答这些后续问题,从而进一步提升了整体准确性。

代码仓库

ofirpress/self-ask
官方
GitHub 中提及

基准测试

基准方法指标
question-answering-on-bamboogleSelf-ask (GPT-3; davinci-002)
Accuracy: 57.6
question-answering-on-bamboogleSelf-ask (GPT-3; davinci-002) + Google Search
Accuracy: 60.0
question-answering-on-bamboogleGoogle Search
Accuracy: 0
question-answering-on-bamboogleChain-of-Thought (GPT-3; davinci-002)
Accuracy: 46.4
question-answering-on-bamboogleDirect Prompting (GPT-3; davinci-002)
Accuracy: 17.6
question-answering-on-feverSelf-Ask
EM: 64.2
question-answering-on-webquestionsSelf-Ask
EM: 31.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言模型中组合性差距的测量与缩小 | 论文 | HyperAI超神经