5 个月前

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

摘要

多模态大语言模型（MLLMs）如GPT-4V的快速发展推动了显著的技术进步。然而，由于医疗视觉-文本数据在数量和质量上的局限性，这些模型在医疗多模态能力方面仍面临挑战，其根源在于数据隐私顾虑和高昂的标注成本。尽管已有开创性方法利用PubMed中大规模、去标识化的医学图像-文本配对数据来缓解这些限制，但其固有的数据噪声问题仍导致效果不尽如人意。为此，我们对PubMed中的医学图像-文本配对数据进行了精细化处理，并采用MLLMs（GPT-4V）以“非盲”方式对数据进行去噪与重构，最终构建出包含130万条医学视觉问答（VQA）样本的PubMedVision数据集。我们的验证结果表明：（1）PubMedVision能显著提升当前MLLMs的医疗多模态能力，在MMMU健康与医学赛道等基准测试中均展现出显著性能提升；（2）经医学专家的人工核查及实证结果验证，本数据集在数据质量上优于其他数据构建方法。基于PubMedVision，我们训练了参数量达340亿的开源医学MLLM——HuatuoGPT-Vision，其在开源MLLM中表现出卓越的医疗多模态任务性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

摘要

多模态大语言模型（MLLMs）如GPT-4V的快速发展推动了显著的技术进步。然而，由于医疗视觉-文本数据在数量和质量上的局限性，这些模型在医疗多模态能力方面仍面临挑战，其根源在于数据隐私顾虑和高昂的标注成本。尽管已有开创性方法利用PubMed中大规模、去标识化的医学图像-文本配对数据来缓解这些限制，但其固有的数据噪声问题仍导致效果不尽如人意。为此，我们对PubMed中的医学图像-文本配对数据进行了精细化处理，并采用MLLMs（GPT-4V）以“非盲”方式对数据进行去噪与重构，最终构建出包含130万条医学视觉问答（VQA）样本的PubMedVision数据集。我们的验证结果表明：（1）PubMedVision能显著提升当前MLLMs的医疗多模态能力，在MMMU健康与医学赛道等基准测试中均展现出显著性能提升；（2）经医学专家的人工核查及实证结果验证，本数据集在数据质量上优于其他数据构建方法。基于PubMedVision，我们训练了参数量达340亿的开源医学MLLM——HuatuoGPT-Vision，其在开源MLLM中表现出卓越的医疗多模态任务性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供