摘要

尽管近年来商用大型语言模型（LM）在医疗任务中展现出令人鼓舞的成果，但其闭源特性带来了显著的隐私与安全风险，严重制约了其在医疗领域的广泛应用。尽管已有研究致力于开发开源模型，但受限于参数量较小，这些模型在解决复杂医疗问题所需的多步推理能力方面仍显不足。为此，我们提出了Meerkat——一个参数规模从70亿到700亿不等的新一代医疗人工智能系统家族。该系列模型基于我们构建的新型合成数据集进行训练，该数据集包含来自18本医学教科书的高质量思维链（chain-of-thought）推理路径，以及多样化的指令遵循数据集。实验结果表明，Meerkat在六个医疗基准测试中均取得了卓越的准确率，显著超越此前表现最佳的模型（如MediTron、BioMistral和GPT-3.5）。尤为值得关注的是，Meerkat-7B首次使70亿参数级别的模型达到美国医师执照考试（USMLE）的及格标准，而Meerkat-70B在平均性能上超越GPT-4达1.3%。此外，Meerkat-70B在38例复杂临床病例中正确诊断出21例，优于人类专家的13.8例，仅略低于GPT-4的21.8例。相较于现有小型模型，Meerkat系统能够对临床问题提供更为详尽、自由形式的回答，其表现已接近大型商用模型的水平。这一成果显著缩小了与大型语言模型之间的性能差距，充分展现了其在应对复杂医疗挑战方面的有效性。

源 PDF