3 个月前

Gemini 模型在医学领域的应用能力

Gemini 模型在医学领域的应用能力

摘要

在众多医疗应用领域实现卓越表现,对人工智能(AI)提出了巨大挑战,这要求模型具备先进的推理能力、获取最新医学知识的能力,以及对复杂多模态数据的深入理解。Gemini系列模型凭借其在多模态与长上下文推理方面的强大通用能力,为医学领域带来了令人振奋的前景。基于Gemini的核心优势,我们推出了Med-Gemini——一个专为医学场景深度优化的多模态模型家族。该系列模型具备无缝调用网络搜索的能力,并可通过自定义编码器高效适配新型模态。我们在14项医学基准测试中对Med-Gemini进行了评估,在其中10项任务上取得了新的最先进(State-of-the-Art, SoTA)性能,且在所有可进行直接比较的基准上均显著超越GPT-4系列模型,差距常常十分显著。在广受关注的MedQA(USMLE)基准测试中,表现最优的Med-Gemini模型实现了91.1%的准确率,创下新纪录,其背后得益于一种创新的不确定性引导搜索策略。在包括《新英格兰医学杂志》图像挑战赛(NEJM Image Challenges)和MMMU(健康与医学)在内的7项多模态基准测试中,Med-Gemini相较GPT-4V平均提升了44.5%的相对性能。我们通过在长篇去标识化健康记录中的“大海捞针”式信息检索任务以及医学视频问答任务中取得的最先进表现,充分验证了Med-Gemini在长上下文处理方面的卓越能力,其效果甚至超越了此前专门设计的方法,且仅依赖上下文学习(in-context learning)即可实现。此外,Med-Gemini在实际应用潜力方面也展现出显著优势:其在医学文本摘要等任务上的表现已超越人类专家;同时,在多模态医学对话、医学研究辅助与医学教育等多个方向也展现出极具前景的应用潜力。综上所述,我们的实验结果为Med-Gemini的巨大潜力提供了有力证据。然而,在该安全关键领域实现真实世界部署之前,仍需开展更加严格和全面的评估工作。

基准测试

基准方法指标
question-answering-on-medqa-usmleMed-Gemini
Accuracy: 91.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Gemini 模型在医学领域的应用能力 | 论文 | HyperAI超神经