3 个月前

用于点击率预测的特征集优化

用于点击率预测的特征集优化

摘要

点击率预测(Click-Through Rate, CTR)模型通过将特征映射为潜在向量,并枚举可能的特征交互以提升模型性能。因此,在选择最优特征集时,应同时考虑特征本身及其交互的影响。然而,以往大多数方法仅关注特征字段的选择,或在固定特征集的基础上仅筛选特征交互,难以兼顾特征与交互的联合优化。前者将搜索空间限制在特征字段层面,粒度过于粗糙,无法有效识别细微但重要的特征;同时,这类方法未能剔除无用的特征交互,导致计算开销增加且模型性能下降。后者则在全部可用特征中识别有用的交互,往往引入大量冗余特征,使特征集膨胀。针对上述问题,本文提出一种新方法——OptFS(Optimal Feature Selection)。为统一实现特征及其交互的联合选择,OptFS将每个特征交互的选择过程分解为两个相关特征的选择。这种分解方式使得模型能够针对不同的特征交互操作实现端到端可训练。通过引入特征级别的搜索空间,并为每个特征设置可学习的门控机制,以决定该特征是否应被纳入特征集。由于搜索空间规模庞大,我们设计了一种“持续学习”(learning-by-continuation)的训练策略来高效学习这些门控参数。因此,OptFS能够生成仅包含对最终预测结果有实际提升作用的特征的精简特征集。实验结果表明,我们在三个公开数据集上对OptFS进行了评估,验证了其能够有效优化特征集,显著提升模型性能,同时大幅降低存储与计算成本。

代码仓库

fuyuanlyu/optfs
官方
pytorch

基准测试

基准方法指标
click-through-rate-prediction-on-avazuOptFS
AUC: 0.795
LogLoss: 0.3709
click-through-rate-prediction-on-criteoOptFS
AUC: 0.8116
Log Loss: 0.4401
click-through-rate-prediction-on-kdd12OptFS
AUC: 0.7988
Log Loss: 0.1527

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于点击率预测的特征集优化 | 论文 | HyperAI超神经