3 个月前

大型语言模型编码临床知识

大型语言模型编码临床知识

摘要

大型语言模型(LLMs)在自然语言理解与生成方面展现出令人瞩目的能力,但其在医疗与临床应用中的质量要求极为严苛。目前,对模型临床知识的评估大多依赖于有限基准集上的自动化测试,尚缺乏统一标准来全面评估模型在多种任务中的预测与推理能力。为此,我们提出了MultiMedQA——一个整合了六个现有公开问答数据集的综合性基准,涵盖专业医学考试、科研问题以及面向患者的日常咨询;同时,我们还构建了HealthSearchQA,这是一个全新的自由文本形式的医学问答数据集,其问题来源于真实网络搜索行为。我们提出了一套多维度的人工评估框架,用于系统评价模型回答的质量,涵盖事实准确性、表述精确性、潜在危害性以及偏见等多个方面。在此基础上,我们对PaLM(一款5400亿参数的大型语言模型)及其指令微调版本Flan-PaLM在MultiMedQA上的表现进行了评估。通过结合多种提示策略,Flan-PaLM在MultiMedQA中的所有多项选择类数据集上均达到了当前最优水平(包括MedQA、MedMCQA、PubMedQA以及MMLU临床主题子集),尤其在MedQA(美国医师执照考试题)上取得了67.6%的准确率,较此前最优结果提升超过17%。然而,人工评估揭示了Flan-PaLM在回答质量方面仍存在若干关键缺陷。为解决这一问题,我们提出“指令提示微调”(instruction prompt tuning)方法——一种参数高效的技术,仅需少量示例即可将大型语言模型适配至新领域。基于该方法训练出的模型名为Med-PaLM,其表现令人鼓舞,但相较于临床专业人员仍存在一定差距。我们的研究发现,随着模型规模的扩大以及指令提示微调的引入,模型在医学理解能力、知识记忆准确率和医学推理能力方面均有显著提升,这表明大型语言模型在医疗领域的应用具有巨大潜力。然而,通过人工评估我们亦识别出当前模型的重要局限性,进一步强调了构建系统化评估框架与持续优化方法的重要性,以推动安全、可靠、有益的大型语言模型在临床场景中的落地应用。

代码仓库

dmis-lab/olaph
pytorch
GitHub 中提及

基准测试

基准方法指标
multiple-choice-question-answering-mcqa-on-21Flan-PaLM (8B, Few-shot)
Dev Set (Acc-%): 0.345
multiple-choice-question-answering-mcqa-on-21PaLM (540B, Few-shot)
Dev Set (Acc-%): 0.545
multiple-choice-question-answering-mcqa-on-21Flan-PaLM (540B, CoT)
Dev Set (Acc-%): 0.536
multiple-choice-question-answering-mcqa-on-21Flan-PaLM (540B, Few-shot)
Dev Set (Acc-%): 0.565
multiple-choice-question-answering-mcqa-on-21PaLM (8B, Few-shot)
Dev Set (Acc-%): 0.267
multiple-choice-question-answering-mcqa-on-21Flan-PaLM (540B, SC)
Dev Set (Acc-%): 0.576
multiple-choice-question-answering-mcqa-on-21PaLM (62B, Few-shot)
Dev Set (Acc-%): 0.434
multiple-choice-question-answering-mcqa-on-21Flan-PaLM (62B, Few-shot)
Dev Set (Acc-%): 0.462
question-answering-on-medqa-usmleFlan-PaLM (540 B)
Accuracy: 67.6
question-answering-on-medqa-usmleBioLinkBERT (340 M)
Accuracy: 45.1
question-answering-on-medqa-usmlePubMedGPT (2.7 B)
Accuracy: 50.3
question-answering-on-medqa-usmleGPT-Neo (2.7 B)
Accuracy: 33.3
question-answering-on-pubmedqaPaLM (8B, Few-shot)
Accuracy: 34
question-answering-on-pubmedqaPaLM (62B, Few-shot)
Accuracy: 57.8
question-answering-on-pubmedqaFlan-PaLM (540B, Few-shot)
Accuracy: 79
question-answering-on-pubmedqaFlan-PaLM (62B, Few-shot)
Accuracy: 77.2
question-answering-on-pubmedqaPaLM (540B, Few-shot)
Accuracy: 55
question-answering-on-pubmedqaFlan-PaLM (540B, SC)
Accuracy: 75.2
question-answering-on-pubmedqaFlan-PaLM (8B, Few-shot)
Accuracy: 67.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大型语言模型编码临床知识 | 论文 | HyperAI超神经