
摘要
多变量时间序列通常包含大量缺失值,这严重制约了先进分析方法在多变量时间序列数据上的应用。传统的缺失值处理方法,如均值/零值填充、案例删除以及基于矩阵分解的插补方法,均无法有效建模多变量时间序列中的时间依赖性及其复杂的分布特性。本文将缺失值插补问题视为数据生成任务。受生成对抗网络(GAN)在图像生成领域成功应用的启发,我们提出利用GAN学习多变量时间序列数据的整体分布,并基于该分布为每个样本生成缺失值。与图像数据不同,时间序列数据由于数据采集过程的固有特性,通常呈现不完整状态。为此,我们在GAN中引入了一种改进的门控循环单元(Gated Recurrent Unit, GRU),以建模不完整时间序列的时间不规则性。在两个多变量时间序列数据集上的实验结果表明,所提出的模型在插补精度方面优于现有基线方法。此外,实验还显示,在经插补后的数据上使用一个简单的预测模型,即可在下游预测任务中达到当前最先进的性能,充分验证了本方法在实际应用中的有效性与优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multivariate-time-series-imputation-on-2 | GRUI | OOB Rate (10^−3) : 4.703 Path Difference: 0.690 Path Length: 1.141 Player Distance : 0.398 Step Change (10^−3): 14.95 |
| multivariate-time-series-imputation-on-kdd | GAN-2-stage | MSE (10% missing): 0.355 |
| multivariate-time-series-imputation-on-pems | GRUI | L2 Loss (10^-4): 15.24 |