
摘要
稳健的机器学习依赖于能够使用标准化框架的重要任务数据的访问,以及开发出性能可以合理重现的模型的能力。在医疗健康领域的机器学习中,社区面临着由于缺乏公开可访问的数据和标准化数据处理框架而导致的可重现性挑战。本文介绍了一种名为MIMIC-Extract的开源管道,该管道可以将包含在公开可用的MIMIC-III数据库中的重症监护患者的原始电子健康记录(EHR)数据转换为可以直接用于常见机器学习管道的数据框。MIMIC-Extract解决了将复杂健康记录数据提供给更广泛的机器学习社区所面临的三个主要挑战。首先,它提供了标准化的数据处理功能,包括单位转换、异常值检测和聚合语义等价特征,从而减少了重复并降低了缺失率。其次,它保留了临床数据的时间序列特性,并可以轻松集成到医疗健康领域的机器学习中具有临床行动意义的预测任务中。最后,该管道具有高度可扩展性,使得其他研究者可以方便地将其应用于相关问题的研究中。我们通过展示几个基准任务及其基线结果来证明这一管道的实用性。
代码仓库
asjad99/MIMIC_RL_COACH
GitHub 中提及
MLforHealth/MIMIC_Extract
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| length-of-stay-prediction-on-mimic-iii | GRU-D | Accuracy (LOSu003e3 Days): 68.3% Accuracy (LOSu003e7 Days): 91.2 |
| length-of-stay-prediction-on-mimic-iii | Random Forests (RF) | Accuracy (LOSu003e3 Days): 69.5% Accuracy (LOSu003e7 Days): 92.3 |
| length-of-stay-prediction-on-mimic-iii | Logistic Regression (LR) | Accuracy (LOSu003e3 Days): 68.6% Accuracy (LOSu003e7 Days): 91.9 |