4 个月前

学习解释:通过思维链进行多模态推理以回答科学问题

学习解释:通过思维链进行多模态推理以回答科学问题

摘要

在回答问题时,人类会利用不同模态的信息来合成一条连贯且完整的思维链(Chain of Thought, CoT)。对于大规模语言模型等深度学习模型而言,这一过程通常是黑箱操作。最近,科学问题基准被用于诊断AI系统的多跳推理能力和可解释性。然而,现有的数据集要么未能提供答案注释,要么仅限于纯文本模态、小规模和有限的领域多样性。为此,我们提出了科学问答(ScienceQA)这一新基准,它包含约2.1万个具有多种科学主题的多模态多项选择题,并对答案进行了注释,提供了相应的讲座和解释。我们进一步设计了语言模型,使其能够生成讲座和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA展示了思维链(CoT)在语言模型中的实用性,因为CoT在少样本GPT-3中提升了1.20%的问题回答性能,在微调后的UnifiedQA中提升了3.99%。我们还探索了通过在输入中加入解释来提高模型性能的上限;观察到这可以将GPT-3的少样本性能提升18.96%。我们的分析进一步表明,类似于人类,语言模型也能从解释中受益,在较少的数据量下达到相同的表现水平,只需40%的数据即可实现同等性能。数据和代码可在https://scienceqa.github.io 获取。

代码仓库

lupantech/ScienceQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
science-question-answering-on-scienceqaGPT-3 (QCM→A, 2-shot)
Avg. Accuracy: 73.97
Grades 1-6: 76.80
Grades 7-12: 68.89
Image Context: 67.28
Language Science: 76.00
Natural Science: 74.64
No Context: 77.42
Social Science: 69.74
Text Context: 74.44
science-question-answering-on-scienceqaGPT-3 - CoT(QCM→AE, 2-shot)
Avg. Accuracy: 74.61
Grades 1-6: 78.49
Grades 7-12: 67.63
Image Context: 66.09
Language Science: 77.55
Natural Science: 76.60
No Context: 79.58
Social Science: 65.92
Text Context: 75.51
science-question-answering-on-scienceqaGPT-3 - CoT (QCM→ALE , 2-shot)
Avg. Accuracy: 75.17
Grades 1-6: 78.23
Grades 7-12: 69.68
Image Context: 67.43
Language Science: 78.09
Natural Science: 75.44
No Context: 79.93
Social Science: 70.87
Text Context: 74.68
science-question-answering-on-scienceqaUnifiedQA-BASE - CoT (QCM→ALE)
Avg. Accuracy: 74.11
Grades 1-6: 77.06
Grades 7-12: 68.82
Image Context: 66.53
Language Science: 78.91
Natural Science: 71.00
No Context: 81.81
Social Science: 76.04
Text Context: 66.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习解释:通过思维链进行多模态推理以回答科学问题 | 论文 | HyperAI超神经