
摘要
医学视觉问答(MedVQA)为利用人工智能解释和回答基于医学图像的问题提供了重要机会,从而提高诊断准确性和医疗服务质量。在本研究中,我们将MedVQA问题重新定义为一个生成任务,该任务自然地遵循人机交互过程,并提出了一种基于生成模型的方法来实现医学视觉理解。具体而言,我们通过将预训练的视觉编码器提取的视觉信息与大型语言模型对齐,构建了这一方法。我们建立了一个可扩展的管道,用于构建大规模的医学视觉问答数据集,命名为PMC-VQA,该数据集包含149,000张图像的227,000个问答对,涵盖了多种模态或疾病。我们在PMC-VQA上训练了所提出的模型,并在多个公开基准数据集上进行了微调,例如VQA-RAD、SLAKE和ImageClef-2019,在生成相关且准确的自由形式答案方面显著优于现有的MedVQA模型。此外,我们还提出了一套经过人工验证的测试集,其难度显著增加,有助于更好地监控生成式MedVQA方法的发展。为了促进全面评估和比较,我们在 https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical 维护了一个排行榜,提供了一个集中资源来跟踪进展和评估最先进方法。PMC-VQA数据集成为该研究领域的重要资源,而MedVInT则在MedVQA领域实现了重大突破。
代码仓库
zihanzhaosjtu/librisqa
GitHub 中提及
xiaoman-zhang/PMC-VQA
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generative-visual-question-answering-on-pmc | MedVInT | BLEU-1: 23.2 |
| visual-question-answering-vqa-on-pmc-vqa | MedVInT | Accuracy: 42.3 |