
摘要
语言模型(LMs)在医学领域已展现出专家级别的推理与记忆能力。然而,计算成本高昂及隐私安全问题正成为其大规模应用的主要障碍。为此,我们提出了一种轻量化的phi-3-mini模型适配方案——MedMobile,这是一个参数量仅为38亿的医学专用语言模型,可直接在移动设备上运行。实验表明,MedMobile在MedQA(USMLE)测试集上的得分为75.7%,超过医生执业考试的及格线(约60%),并接近参数规模为其100倍的大型模型的性能表现。随后,我们开展了一系列严谨的消融实验,结果表明,思维链(chain of thought)、模型集成(ensembling)以及微调(fine-tuning)是提升模型性能的关键因素;而令人意外的是,检索增强生成(retrieval-augmented generation)并未带来显著性能提升。
代码仓库
nyuolab/MedMobile
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-medmcqa-dev | MedMobile (3.8B) | Accuarcy: 63.2 |
| question-answering-on-medqa-usmle | MedMobile (3.8B) | Accuracy: 75.7 |