
摘要
生成合成表格数据在机器学习中具有重要意义,尤其是在真实数据稀缺或敏感的情况下。传统的生成模型在处理表格数据时往往面临诸多挑战,这主要源于表格数据特有的复杂性,例如混合数据类型和多样化的分布特征,通常需要复杂的预处理步骤或依赖大规模预训练模型。本文提出一种新颖的无损二值化转换方法,可将任意表格数据转化为固定长度的二值表示,并进一步设计了一种专为二值数据量身定制的新型生成模型——Binary Diffusion。该模型利用异或(XOR)运算的简洁性实现噪声的添加与去除,并采用二值交叉熵损失函数进行训练。所提方法无需进行繁琐的预处理、复杂的噪声参数调优,也无需在大规模数据集上进行预训练。我们在多个主流表格数据集上对模型进行了评估,结果表明,Binary Diffusion在Travel、Adult Income和Diabetes等数据集上的表现优于现有最先进模型,同时模型体积显著更小。
代码仓库
vkinakh/binary-diffusion-tabular
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| tabular-data-generation-on-adult-census | Binary Diffusion | DT Accuracy: 85.27 LR Accuracy: 85.45 Parameters(M): 1.4 RF Accuracy: 85.74 |
| tabular-data-generation-on-california-housing | Binary Diffusion | DT Mean Squared Error: 0.45 LR Mean Squared Error: 0.55 Parameters(M): 1.5 RF Mean Squared Error: 0.39 |
| tabular-data-generation-on-diabetes | Binary Diffusion | DT Accuracy: 0.5713 LR Accuracy: 0.5775 Parameters(M): 1.8 RF Accuracy: 0.5752 |
| tabular-data-generation-on-heloc | Binary Diffusion | DT Accuracy: 70.25 LR Accuracy: 71.76 Parameters(M): 2.6 RF Accuracy: 70.47 |
| tabular-data-generation-on-sick | Binary Diffusion | DT Accuracy: 97.07 LR Accuracy: 96.14 Parameters(M): 1.4 RF Accuracy: 96.59 |
| tabular-data-generation-on-travel | Binary Diffusion | DT Accuracy: 88.9 LR Accuracy: 83.79 Parameters(M): 1.1 RF Accuracy: 89.95 |