4 个月前

PMC-VQA:医学视觉问答中的视觉指令调优

PMC-VQA:医学视觉问答中的视觉指令调优

摘要

医学视觉问答(MedVQA)为利用人工智能解释和回答基于医学图像的问题提供了重要机会,从而提高诊断准确性和医疗服务质量。在本研究中,我们将MedVQA问题重新定义为一个生成任务,该任务自然地遵循人机交互过程,并提出了一种基于生成模型的方法来实现医学视觉理解。具体而言,我们通过将预训练的视觉编码器提取的视觉信息与大型语言模型对齐,构建了这一方法。我们建立了一个可扩展的管道,用于构建大规模的医学视觉问答数据集,命名为PMC-VQA,该数据集包含149,000张图像的227,000个问答对,涵盖了多种模态或疾病。我们在PMC-VQA上训练了所提出的模型,并在多个公开基准数据集上进行了微调,例如VQA-RAD、SLAKE和ImageClef-2019,在生成相关且准确的自由形式答案方面显著优于现有的MedVQA模型。此外,我们还提出了一套经过人工验证的测试集,其难度显著增加,有助于更好地监控生成式MedVQA方法的发展。为了促进全面评估和比较,我们在 https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical 维护了一个排行榜,提供了一个集中资源来跟踪进展和评估最先进方法。PMC-VQA数据集成为该研究领域的重要资源,而MedVInT则在MedVQA领域实现了重大突破。

代码仓库

zihanzhaosjtu/librisqa
GitHub 中提及
xiaoman-zhang/PMC-VQA
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
generative-visual-question-answering-on-pmcMedVInT
BLEU-1: 23.2
visual-question-answering-vqa-on-pmc-vqaMedVInT
Accuracy: 42.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PMC-VQA:医学视觉问答中的视觉指令调优 | 论文 | HyperAI超神经