
摘要
在回答问题时,人类会利用不同模态的信息来合成一条连贯且完整的思维链(Chain of Thought, CoT)。对于大规模语言模型等深度学习模型而言,这一过程通常是黑箱操作。最近,科学问题基准被用于诊断AI系统的多跳推理能力和可解释性。然而,现有的数据集要么未能提供答案注释,要么仅限于纯文本模态、小规模和有限的领域多样性。为此,我们提出了科学问答(ScienceQA)这一新基准,它包含约2.1万个具有多种科学主题的多模态多项选择题,并对答案进行了注释,提供了相应的讲座和解释。我们进一步设计了语言模型,使其能够生成讲座和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA展示了思维链(CoT)在语言模型中的实用性,因为CoT在少样本GPT-3中提升了1.20%的问题回答性能,在微调后的UnifiedQA中提升了3.99%。我们还探索了通过在输入中加入解释来提高模型性能的上限;观察到这可以将GPT-3的少样本性能提升18.96%。我们的分析进一步表明,类似于人类,语言模型也能从解释中受益,在较少的数据量下达到相同的表现水平,只需40%的数据即可实现同等性能。数据和代码可在https://scienceqa.github.io 获取。
代码仓库
lupantech/ScienceQA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| science-question-answering-on-scienceqa | GPT-3 (QCM→A, 2-shot) | Avg. Accuracy: 73.97 Grades 1-6: 76.80 Grades 7-12: 68.89 Image Context: 67.28 Language Science: 76.00 Natural Science: 74.64 No Context: 77.42 Social Science: 69.74 Text Context: 74.44 |
| science-question-answering-on-scienceqa | GPT-3 - CoT(QCM→AE, 2-shot) | Avg. Accuracy: 74.61 Grades 1-6: 78.49 Grades 7-12: 67.63 Image Context: 66.09 Language Science: 77.55 Natural Science: 76.60 No Context: 79.58 Social Science: 65.92 Text Context: 75.51 |
| science-question-answering-on-scienceqa | GPT-3 - CoT (QCM→ALE , 2-shot) | Avg. Accuracy: 75.17 Grades 1-6: 78.23 Grades 7-12: 69.68 Image Context: 67.43 Language Science: 78.09 Natural Science: 75.44 No Context: 79.93 Social Science: 70.87 Text Context: 74.68 |
| science-question-answering-on-scienceqa | UnifiedQA-BASE - CoT (QCM→ALE) | Avg. Accuracy: 74.11 Grades 1-6: 77.06 Grades 7-12: 68.82 Image Context: 66.53 Language Science: 78.91 Natural Science: 71.00 No Context: 81.81 Social Science: 76.04 Text Context: 66.42 |