3 个月前

基于生成对抗网络的多变量时间序列插补

基于生成对抗网络的多变量时间序列插补

摘要

多变量时间序列通常包含大量缺失值,这严重制约了先进分析方法在多变量时间序列数据上的应用。传统的缺失值处理方法,如均值/零值填充、案例删除以及基于矩阵分解的插补方法,均无法有效建模多变量时间序列中的时间依赖性及其复杂的分布特性。本文将缺失值插补问题视为数据生成任务。受生成对抗网络(GAN)在图像生成领域成功应用的启发,我们提出利用GAN学习多变量时间序列数据的整体分布,并基于该分布为每个样本生成缺失值。与图像数据不同,时间序列数据由于数据采集过程的固有特性,通常呈现不完整状态。为此,我们在GAN中引入了一种改进的门控循环单元(Gated Recurrent Unit, GRU),以建模不完整时间序列的时间不规则性。在两个多变量时间序列数据集上的实验结果表明,所提出的模型在插补精度方面优于现有基线方法。此外,实验还显示,在经插补后的数据上使用一个简单的预测模型,即可在下游预测任务中达到当前最先进的性能,充分验证了本方法在实际应用中的有效性与优势。

基准测试

基准方法指标
multivariate-time-series-imputation-on-2GRUI
OOB Rate (10^−3) : 4.703
Path Difference: 0.690
Path Length: 1.141
Player Distance : 0.398
Step Change (10^−3): 14.95
multivariate-time-series-imputation-on-kddGAN-2-stage
MSE (10% missing): 0.355
multivariate-time-series-imputation-on-pemsGRUI
L2 Loss (10^-4): 15.24

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于生成对抗网络的多变量时间序列插补 | 论文 | HyperAI超神经