摘要

对话生成式人工智能在赋能生物医学从业者方面展现出显著潜力，但目前的研究主要集中在单模态文本上。多模态对话AI通过利用公共网络上的数十亿图像-文本对取得了快速进展，然而这些通用领域的视觉-语言模型在理解和讨论生物医学图像时仍缺乏精细度。本文提出了一种成本效益高的方法，用于训练一个能够回答开放性生物医学图像研究问题的视觉-语言对话助手。该方法的核心思想是从PubMed Central中提取的大规模、广泛覆盖的生物医学图表-标题数据集出发，利用GPT-4从标题中自动生成开放性指令跟随数据，然后通过一种新颖的课程学习方法对大型通用领域视觉-语言模型进行微调。具体而言，模型首先学习使用图表-标题对来对齐生物医学词汇，随后再利用GPT-4生成的指令跟随数据来掌握开放性对话语义，大致模拟了普通人逐步获取生物医学知识的过程。这使得我们能够在不到15小时的时间内（使用八个A100 GPU）训练出一个大规模语言和视觉辅助系统（LLaVA-Med）。LLaVA-Med表现出色的多模态对话能力，并能遵循开放性指令以协助解决关于生物医学图像的查询问题。在三个标准的生物医学视觉问答数据集上，LLaVA-Med在某些指标上超越了先前的最佳监督方法。为了促进生物医学多模态研究的发展，我们将发布我们的指令跟随数据和LLaVA-Med模型。

源 PDF