3 个月前

CheXclusion:深度胸部X光分类器中的公平性差距

CheXclusion:深度胸部X光分类器中的公平性差距

摘要

近年来,机器学习系统因其在临床任务中实现专家级表现的能力而受到广泛关注,尤其是在医学影像领域。本文探讨了最先进的深度学习分类器在从X射线图像中生成诊断标签时,对受保护属性(如患者性别、年龄、种族和保险类型,后者可作为社会经济地位的代理指标)是否存在偏差。我们训练卷积神经网络,在三个主流公开的胸部X射线数据集——MIMIC-CXR、Chest-Xray8 和 CheXpert——以及上述数据集的多中心整合数据集上,预测14种诊断标签。我们以真阳性率(True Positive Rate, TPR)差异作为衡量标准,评估不同受保护属性之间的性能差距。研究发现,在所有数据集、所有临床任务及所有亚组中,最先进的分类器均存在显著的TPR差异。值得注意的是,多源数据集整合版本表现出最小的TPR差异,提示通过数据融合可能是缓解偏差的一种有效途径。此外,我们发现TPR差异与特定亚组的疾病负担比例之间并无显著相关性。随着临床模型从研究论文走向实际应用产品,我们呼吁临床决策者在模型部署前,必须对其潜在的算法偏差进行严格审计。本文相关代码已开源,可通过以下链接获取:https://github.com/LalehSeyyed/CheXclusion

代码仓库

LalehSeyyed/CheXclusion
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-chestx-ray14DensNet121
Average AUC on 14 label: 84.9
multi-label-classification-on-chexpertDensNet121
AVERAGE AUC ON 14 LABEL: 0.805
multi-label-classification-on-mimic-cxrDensNet121
Average AUC on 14 label: 0.8340000000000001

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CheXclusion:深度胸部X光分类器中的公平性差距 | 论文 | HyperAI超神经