6 个月前

摘要

数据预处理是构建表格数据机器学习流水线的关键步骤之一。在自动化机器学习（AutoML）系统中，常见的数据预处理操作之一是将分类特征编码为数值特征。通常，这一过程通过基于分类值的简单字母顺序排序来实现，例如使用 Scikit-Learn 和 H2O 中的 OrdinalEncoder 或 LabelEncoder。然而，分类值之间往往存在语义上的序数关系，例如：质量等级（如“非常优秀” > “优秀” > “正常” > “较差”），或月份顺序（如“Jan” < “Feb” < “Mar”）。现有的 AutoML 方法并未充分利用此类语义关系。本文提出一种新方法——BERT-Sort，通过零样本掩码语言模型（Masked Language Model, MLM）实现对序数型分类值的语义编码，并将其应用于表格数据的 AutoML 场景。我们首次构建了一个包含 10 个公开数据集共 42 个特征的新基准，用于评估分类序数值的排序性能。实验结果表明，与现有方法相比，BERT-Sort 在语义编码方面实现了 27% 的显著提升。我们对多种公开的 MLM 模型（如 RoBERTa、XLM 和 DistilBERT）进行了全面评估，并在多个 AutoML 平台（包括 AutoGluon、FLAML、H2O 和 MLJAR）上，对比了原始数据集与经 BERT-Sort 编码后的数据集在端到端场景下的性能表现，以全面验证所提方法的有效性。

源 PDF 查看代码