3 个月前

无监督异常检测在审计数据中的应用及类别编码的影响

无监督异常检测在审计数据中的应用及类别编码的影响

摘要

本文介绍了Vehicle Claims数据集,该数据集包含用于汽车维修的欺诈性保险理赔记录。该数据属于更广泛的审计数据类别,后者还包括期刊数据和网络入侵数据。与其它审计数据(如网络入侵数据)相比,保险理赔数据在类别型属性数量上具有显著差异,呈现出极高的类别属性维度。针对异常检测领域普遍存在的基准数据集缺失问题——即多数数据具有保密性,而公开的表格型数据集又缺乏相关且充分的类别型属性——我们构建了一个大规模数据集,命名为Vehicle Claims(VC)数据集,以满足研究需求。该数据集在浅层与深度学习方法上进行了评估。由于引入了大量类别型属性,如何对这些属性进行有效编码成为一大挑战。传统的独热编码(One Hot Encoding)在高基数类别数据上会引发“维度灾难”问题,因此我们尝试采用GEL编码(Generalized Embedding Learning)与嵌入层(embedding layer)来表示类别型特征。本研究系统比较了多种方法在不同编码方式下的表现,包括竞争性学习、重构误差、密度估计以及对比学习等方法,分别应用于标签(Label)、独热编码(One Hot)、GEL编码与嵌入层,以有效处理类别型变量。

代码仓库

ajaychawda58/uadad
官方
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无监督异常检测在审计数据中的应用及类别编码的影响 | 论文 | HyperAI超神经