4 个月前

通用基础模型能否超越专用调优?医学案例研究

通用基础模型能否超越专用调优?医学案例研究

摘要

通用基础模型如GPT-4在各种领域和任务中展现了令人惊讶的能力。然而,普遍认为它们无法匹敌经过微调的专门模型的专业能力。例如,迄今为止大多数关于医学能力基准测试的探索都依赖于特定领域的训练,这在BioGPT和Med-PaLM的研究中得到了体现。我们在之前的一项研究基础上,探讨了在没有特殊训练的情况下GPT-4在医学挑战基准测试中的能力。我们不仅使用简单的提示来展示模型的开箱即用能力,而是进行了系统的提示工程探索。研究发现,创新性的提示方法可以解锁更深层次的专业能力,并且GPT-4轻松超越了此前在医学基准测试中的领先结果。我们所探索的提示方法具有通用性,无需利用特定领域的专业知识,从而消除了对专家策划内容的需求。我们的实验设计严格控制了提示工程过程中的过拟合问题。我们引入了Medprompt,该方法基于多种提示策略的组合。通过Medprompt,GPT-4在MultiMedQA套件中的所有九个基准数据集上均达到了最先进的结果。与当前领先的专门模型(如Med-PaLM 2)相比,Medprompt引导下的GPT-4仅需少量的模型调用次数就能显著提高性能,在MedQA数据集上的错误率降低了27%,并且首次超过了90%的得分。此外,我们还展示了Medprompt在其他领域的泛化能力,并通过对其在电气工程、机器学习、哲学、会计、法律、护理和临床心理学考试中的应用研究提供了广泛的适用性证据。

代码仓库

tsinghuac3i/ultramedical
GitHub 中提及
microsoft/promptbase
GitHub 中提及

基准测试

基准方法指标
question-answering-on-medqa-usmleGPT-4
Accuracy: 90.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通用基础模型能否超越专用调优?医学案例研究 | 论文 | HyperAI超神经