3 个月前

BERT-Sort:一种面向AutoML的序数特征零样本MLM语义编码器

BERT-Sort:一种面向AutoML的序数特征零样本MLM语义编码器

摘要

数据预处理是构建表格数据机器学习流水线的关键步骤之一。在自动化机器学习(AutoML)系统中,常见的数据预处理操作之一是将分类特征编码为数值特征。通常,这一过程通过基于分类值的简单字母顺序排序来实现,例如使用 Scikit-Learn 和 H2O 中的 OrdinalEncoder 或 LabelEncoder。然而,分类值之间往往存在语义上的序数关系,例如:质量等级(如“非常优秀” > “优秀” > “正常” > “较差”),或月份顺序(如“Jan” < “Feb” < “Mar”)。现有的 AutoML 方法并未充分利用此类语义关系。本文提出一种新方法——BERT-Sort,通过零样本掩码语言模型(Masked Language Model, MLM)实现对序数型分类值的语义编码,并将其应用于表格数据的 AutoML 场景。我们首次构建了一个包含 10 个公开数据集共 42 个特征的新基准,用于评估分类序数值的排序性能。实验结果表明,与现有方法相比,BERT-Sort 在语义编码方面实现了 27% 的显著提升。我们对多种公开的 MLM 模型(如 RoBERTa、XLM 和 DistilBERT)进行了全面评估,并在多个 AutoML 平台(包括 AutoGluon、FLAML、H2O 和 MLJAR)上,对比了原始数据集与经 BERT-Sort 编码后的数据集在端到端场景下的性能表现,以全面验证所提方法的有效性。

基准测试

基准方法指标
automl-on-ordinaldatasetZero-shot-BERT-SORT
1:1 Accuracy: +55%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BERT-Sort:一种面向AutoML的序数特征零样本MLM语义编码器 | 论文 | HyperAI超神经