3 个月前

基于二元扩散的表格数据生成

基于二元扩散的表格数据生成

摘要

生成合成表格数据在机器学习中具有重要意义,尤其是在真实数据稀缺或敏感的情况下。传统的生成模型在处理表格数据时往往面临诸多挑战,这主要源于表格数据特有的复杂性,例如混合数据类型和多样化的分布特征,通常需要复杂的预处理步骤或依赖大规模预训练模型。本文提出一种新颖的无损二值化转换方法,可将任意表格数据转化为固定长度的二值表示,并进一步设计了一种专为二值数据量身定制的新型生成模型——Binary Diffusion。该模型利用异或(XOR)运算的简洁性实现噪声的添加与去除,并采用二值交叉熵损失函数进行训练。所提方法无需进行繁琐的预处理、复杂的噪声参数调优,也无需在大规模数据集上进行预训练。我们在多个主流表格数据集上对模型进行了评估,结果表明,Binary Diffusion在Travel、Adult Income和Diabetes等数据集上的表现优于现有最先进模型,同时模型体积显著更小。

代码仓库

vkinakh/binary-diffusion-tabular
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
tabular-data-generation-on-adult-censusBinary Diffusion
DT Accuracy: 85.27
LR Accuracy: 85.45
Parameters(M): 1.4
RF Accuracy: 85.74
tabular-data-generation-on-california-housingBinary Diffusion
DT Mean Squared Error: 0.45
LR Mean Squared Error: 0.55
Parameters(M): 1.5
RF Mean Squared Error: 0.39
tabular-data-generation-on-diabetesBinary Diffusion
DT Accuracy: 0.5713
LR Accuracy: 0.5775
Parameters(M): 1.8
RF Accuracy: 0.5752
tabular-data-generation-on-helocBinary Diffusion
DT Accuracy: 70.25
LR Accuracy: 71.76
Parameters(M): 2.6
RF Accuracy: 70.47
tabular-data-generation-on-sickBinary Diffusion
DT Accuracy: 97.07
LR Accuracy: 96.14
Parameters(M): 1.4
RF Accuracy: 96.59
tabular-data-generation-on-travelBinary Diffusion
DT Accuracy: 88.9
LR Accuracy: 83.79
Parameters(M): 1.1
RF Accuracy: 89.95

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于二元扩散的表格数据生成 | 论文 | HyperAI超神经