摘要
多重插补法(Multiple Imputation by Chained Equations, MICE)是一种灵活且实用的处理缺失数据的方法。本文阐述了该方法的基本原理,展示了如何对分类变量和定量变量(包括偏态变量)进行插补。文中提供了构建插补模型的指导建议,并讨论了所需插补次数的确定原则。同时,介绍了对多重插补数据进行实际分析的方法,涵盖模型构建与模型检验过程。本文也强调了该方法的局限性,并探讨了可能存在的陷阱。为便于理解,文中结合心理健康领域的一个实际数据集进行说明,并提供相应的Stata代码片段。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multivariate-time-series-imputation-on | MICE | MAE (PM2.5): 27.42 |
| multivariate-time-series-imputation-on-1 | MICE | MAE (10% of data as GT): 0.634 |
| multivariate-time-series-imputation-on-kdd | MICE | MSE (10% missing): 0.468 |
| multivariate-time-series-imputation-on-uci | MICE | MAE (10% missing): 0.477 |