3 个月前

MedConceptsQA:开源医学概念问答基准

MedConceptsQA:开源医学概念问答基准

摘要

我们提出 MedConceptsQA,一个专用于医学概念问答的开源基准测试数据集。该基准涵盖多种医学概念,包括诊断、操作和药物等不同领域的术语,并将问题按难度划分为三个等级:简单、中等和困难。我们利用多种大语言模型对这一基准进行了评估。研究结果表明,尽管这些临床领域预训练的大语言模型在医学数据上进行了预训练,但在该基准上的准确率仍接近随机猜测水平。相比之下,GPT-4 在零样本(zero-shot)学习和少样本(few-shot)学习场景下,分别实现了约 27% 和 37% 的绝对平均性能提升。本基准为评估大语言模型在医学概念理解与推理能力方面提供了重要资源。该数据集已公开,可通过 Hugging Face 获取:https://huggingface.co/datasets/ofir408/MedConceptsQA

代码仓库

基准测试

基准方法指标
few-shot-learning-on-medconceptsqajohnsnowlabs/JSL-MedMNX-7B
Accuracy: 25.627

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MedConceptsQA:开源医学概念问答基准 | 论文 | HyperAI超神经