4 个月前

LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学

LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学

摘要

对话生成式人工智能在赋能生物医学从业者方面展现出显著潜力,但目前的研究主要集中在单模态文本上。多模态对话AI通过利用公共网络上的数十亿图像-文本对取得了快速进展,然而这些通用领域的视觉-语言模型在理解和讨论生物医学图像时仍缺乏精细度。本文提出了一种成本效益高的方法,用于训练一个能够回答开放性生物医学图像研究问题的视觉-语言对话助手。该方法的核心思想是从PubMed Central中提取的大规模、广泛覆盖的生物医学图表-标题数据集出发,利用GPT-4从标题中自动生成开放性指令跟随数据,然后通过一种新颖的课程学习方法对大型通用领域视觉-语言模型进行微调。具体而言,模型首先学习使用图表-标题对来对齐生物医学词汇,随后再利用GPT-4生成的指令跟随数据来掌握开放性对话语义,大致模拟了普通人逐步获取生物医学知识的过程。这使得我们能够在不到15小时的时间内(使用八个A100 GPU)训练出一个大规模语言和视觉辅助系统(LLaVA-Med)。LLaVA-Med表现出色的多模态对话能力,并能遵循开放性指令以协助解决关于生物医学图像的查询问题。在三个标准的生物医学视觉问答数据集上,LLaVA-Med在某些指标上超越了先前的最佳监督方法。为了促进生物医学多模态研究的发展,我们将发布我们的指令跟随数据和LLaVA-Med模型。

代码仓库

microsoft/LLaVA-Med
pytorch
GitHub 中提及

基准测试

基准方法指标
image-classification-on-coloninst-v1-seenLLaVA-Med-v1.0 (w/o LoRA, w/ extra data)
Accuray: 93.84
image-classification-on-coloninst-v1-seenLLaVA-Med-v1.5 (w/ LoRA, w/ extra data)
Accuray: 87.22
image-classification-on-coloninst-v1-seenLLaVA-Med-v1.5 (w/ LoRA, w/o extra data)
Accuray: 93.62
image-classification-on-coloninst-v1-seenLLaVA-Med-v1.0 (w/o LoRA, w/o extra data)
Accuray: 93.52
image-classification-on-coloninst-v1-unseenLLaVA-Med-v1.5 (w/ LoRA, w/o extra data)
Accuray: 79.24
image-classification-on-coloninst-v1-unseenLLaVA-Med-v1.0 (w/o LoRA, w/o extra data)
Accuray: 78.04
image-classification-on-coloninst-v1-unseenLLaVA-Med-v1.0 (w/o LoRA, w/ extra data)
Accuray: 77.38
image-classification-on-coloninst-v1-unseenLLaVA-Med-v1.5 (w/ LoRA, w/ extra data)
Accuray: 66.51
referring-expression-generation-on-coloninstLLaVA-Med-v1.5 (w/ LoRA, w/ extra data)
Accuray: 90.4
referring-expression-generation-on-coloninstLLaVA-Med-v1.0 (w/o LoRA, w/ extra data)
Accuray: 97.35
referring-expression-generation-on-coloninstLLaVA-Med-v1.5 (w/ LoRA, w/o extra data)
Accuray: 99.3
referring-expression-generation-on-coloninstLLaVA-Med-v1.0 (w/o LoRA, w/o extra data)
Accuray: 97.74
referring-expression-generation-on-coloninst-1LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)
Accuray: 70.00
referring-expression-generation-on-coloninst-1LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)
Accuray: 73.05
referring-expression-generation-on-coloninst-1LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)
Accuray: 75.07
referring-expression-generation-on-coloninst-1LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)
Accuray: 75.25

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LLaVA-Med:一天内训练大型语言与视觉辅助系统以应用于生物医学 | 论文 | HyperAI超神经