HyperAI超神经

摘要

大型语言模型（LLMs）在自然语言理解与生成方面展现出令人瞩目的能力，但其在医疗与临床应用中的质量要求极为严苛。目前，对模型临床知识的评估大多依赖于有限基准集上的自动化测试，尚缺乏统一标准来全面评估模型在多种任务中的预测与推理能力。为此，我们提出了MultiMedQA——一个整合了六个现有公开问答数据集的综合性基准，涵盖专业医学考试、科研问题以及面向患者的日常咨询；同时，我们还构建了HealthSearchQA，这是一个全新的自由文本形式的医学问答数据集，其问题来源于真实网络搜索行为。我们提出了一套多维度的人工评估框架，用于系统评价模型回答的质量，涵盖事实准确性、表述精确性、潜在危害性以及偏见等多个方面。在此基础上，我们对PaLM（一款5400亿参数的大型语言模型）及其指令微调版本Flan-PaLM在MultiMedQA上的表现进行了评估。通过结合多种提示策略，Flan-PaLM在MultiMedQA中的所有多项选择类数据集上均达到了当前最优水平（包括MedQA、MedMCQA、PubMedQA以及MMLU临床主题子集），尤其在MedQA（美国医师执照考试题）上取得了67.6%的准确率，较此前最优结果提升超过17%。然而，人工评估揭示了Flan-PaLM在回答质量方面仍存在若干关键缺陷。为解决这一问题，我们提出“指令提示微调”（instruction prompt tuning）方法——一种参数高效的技术，仅需少量示例即可将大型语言模型适配至新领域。基于该方法训练出的模型名为Med-PaLM，其表现令人鼓舞，但相较于临床专业人员仍存在一定差距。我们的研究发现，随着模型规模的扩大以及指令提示微调的引入，模型在医学理解能力、知识记忆准确率和医学推理能力方面均有显著提升，这表明大型语言模型在医疗领域的应用具有巨大潜力。然而，通过人工评估我们亦识别出当前模型的重要局限性，进一步强调了构建系统化评估框架与持续优化方法的重要性，以推动安全、可靠、有益的大型语言模型在临床场景中的落地应用。

摘要

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl

摘要

用 AI 构建 AI

HyperAI Newsletters

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl

摘要

用 AI 构建 AI

HyperAI Newsletters

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大型语言模型编码临床知识

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl20 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大型语言模型编码临床知识

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl20 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大型语言模型编码临床知识

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl20 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl

Karan Singhal Shekoofeh Azizi Tao Tu S. Sara Mahdavi Jason Wei Hyung Won Chung Nathan Scales Ajay Tanwani Heather Cole-Lewis Stephen Pfohl