
摘要
许多现实世界中的任务都受到数据限制的困扰:在某些情况下,可用数据极为有限;而在另一些情况下,数据则受到隐私保护法规(如GDPR)的严格约束。本文聚焦于时间序列数据所面临的特定限制,提出一种能够生成合成时间序列数据的模型,以替代真实数据用于实际应用。一个生成合成时间序列数据的模型需同时满足两个目标:(1)准确捕捉真实序列的逐步条件分布;(2)忠实建模整个真实序列的联合分布。基于最大似然估计(MLE)训练的自回归模型虽然可在系统中通过将先前预测结果反馈作为输入来预测后续值,但此类模型在长期预测中容易累积误差。此外,这类模型通常需要一个合理的初始值,因而本质上并非真正意义上的生成模型。由于众多下游任务需要建模时间序列的条件分布,因此从生成模型中采样的合成数据不仅必须满足上述第(1)项要求,还必须实现第(2)项目标。为此,本文提出TsT-GAN——一种基于Transformer架构的生成框架,能够有效满足上述需求。我们在五个公开数据集上将TsT-GAN与五种当前最先进的模型进行对比,实验结果表明,TsT-GAN在所有数据集上均实现了更高的预测性能,验证了其在合成时间序列生成任务中的优越性。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-newsqa | Riple/Saanvi-v0.1 | EM: 72.61 F1: 85.44 |