3 个月前

大语言模型能否对医学问题进行推理?

大语言模型能否对医学问题进行推理?

摘要

尽管大型语言模型(LLMs)常常能够生成令人印象深刻的输出,但它们在需要强推理能力与专业领域知识的真实场景中的表现仍不明确。为此,我们旨在探究闭源模型(如GPT-3.5)与开源模型(如LLaMA-2)在回答并推理复杂现实世界问题方面的应用潜力。研究聚焦于三个主流医学基准测试:MedQA-USMLE、MedMCQA 和 PubMedQA,并考察多种提示策略,包括思维链(Chain-of-Thought, CoT,即逐步思考)、少样本学习(few-shot)以及检索增强(retrieval augmentation)。基于对生成的思维链(CoT)进行专家标注的结果,我们发现InstructGPT通常具备良好的阅读理解、推理能力以及对专家知识的回忆能力。最后,通过利用提示工程领域的最新进展(如少样本提示与集成方法),我们证明GPT-3.5不仅能够生成校准良好的预测分布,还在三项基准测试中均达到了通过标准:MedQA-USMLE得分为60.2%,MedMCQA为62.7%,PubMedQA达78.2%。与此同时,开源模型正迅速缩小差距:LLaMA-2 70B版本也以62.5%的准确率通过了MedQA-USMLE测试。

代码仓库

vlievin/medical-reasoning
官方
GitHub 中提及

基准测试

基准方法指标
multiple-choice-question-answering-mcqa-on-21Codex 5-shot CoT
Dev Set (Acc-%): 0.597
Test Set (Acc-%): 0.627
question-answering-on-medqa-usmleCodex 5-shot CoT
Accuracy: 60.2
question-answering-on-pubmedqaCodex 5-shot CoT
Accuracy: 78.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大语言模型能否对医学问题进行推理? | 论文 | HyperAI超神经