
摘要
本文介绍了Vehicle Claims数据集,该数据集包含用于汽车维修的欺诈性保险理赔记录。该数据属于更广泛的审计数据类别,后者还包括期刊数据和网络入侵数据。与其它审计数据(如网络入侵数据)相比,保险理赔数据在类别型属性数量上具有显著差异,呈现出极高的类别属性维度。针对异常检测领域普遍存在的基准数据集缺失问题——即多数数据具有保密性,而公开的表格型数据集又缺乏相关且充分的类别型属性——我们构建了一个大规模数据集,命名为Vehicle Claims(VC)数据集,以满足研究需求。该数据集在浅层与深度学习方法上进行了评估。由于引入了大量类别型属性,如何对这些属性进行有效编码成为一大挑战。传统的独热编码(One Hot Encoding)在高基数类别数据上会引发“维度灾难”问题,因此我们尝试采用GEL编码(Generalized Embedding Learning)与嵌入层(embedding layer)来表示类别型特征。本研究系统比较了多种方法在不同编码方式下的表现,包括竞争性学习、重构误差、密度估计以及对比学习等方法,分别应用于标签(Label)、独热编码(One Hot)、GEL编码与嵌入层,以有效处理类别型变量。
代码仓库
ajaychawda58/uadad
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| anomaly-detection-on-vehicle-claims | Random Forest | AUC: 98.65 |
| anomaly-detection-on-vehicle-claims | Gradient Boosting | AUC: 95.88 |
| unsupervised-anomaly-detection-on-vehicle | NeuTraL-AD | AUC: 57.03 |
| unsupervised-anomaly-detection-on-vehicle | SOM | AUC: 65.43 |
| unsupervised-anomaly-detection-on-vehicle | RSRAE | AUC: 55.38 |
| unsupervised-anomaly-detection-on-vehicle | Latent Outlier Exposure | AUC: 58.59 |
| unsupervised-anomaly-detection-on-vehicle | Isolation Forest | AUC: 59.42 |
| unsupervised-anomaly-detection-on-vehicle | One Class Support Vector Machines | AUC: 51.68 |
| unsupervised-anomaly-detection-on-vehicle | Local Outlier Factor | AUC: 52.86 |
| unsupervised-anomaly-detection-on-vehicle | DAGMM | AUC: 51.22 |
| unsupervised-anomaly-detection-on-vehicle | SOM-DAGMM | AUC: 53.82 |