
摘要
点击率(CTR)预测旨在预测用户点击广告或项目的概率,对于在线广告和推荐系统等许多在线应用至关重要。这一问题极具挑战性,原因在于:(1) 输入特征(例如用户ID、用户年龄、项目ID、项目类别)通常具有稀疏性和高维性;(2) 有效的预测依赖于高阶组合特征(也称为交叉特征),这些特征由领域专家手工设计非常耗时,且无法穷举。因此,研究者们一直在努力寻找稀疏和高维原始特征及其有意义组合的低维表示方法。在本文中,我们提出了一种有效且高效的方法——\emph{AutoInt},用于自动学习输入特征的高阶交互作用。我们提出的算法具有很强的通用性,可以应用于数值型和类别型输入特征。具体而言,我们将数值型和类别型特征映射到同一低维空间中。随后,提出了一种带有残差连接的多头自注意力神经网络,以显式建模低维空间中的特征交互作用。通过多头自注意力神经网络的不同层,可以建模输入特征的不同阶次组合。整个模型可以在大规模原始数据上以端到端的方式高效拟合。我们在四个真实世界数据集上的实验结果表明,所提出的方法不仅在预测性能上优于现有的最先进方法,还具有良好的可解释性。代码可在以下地址获取:\url{https://github.com/DeepGraphLearning/RecommenderSystems}。
代码仓库
cripac-dig/graphctr
tf
GitHub 中提及
xue-pai/FuxiCTR
pytorch
GitHub 中提及
sparsh-ai/RecommenderSystems
tf
GitHub 中提及
DaPenggg/AutoInt
pytorch
GitHub 中提及
shenweichen/DeepCTR
tf
GitHub 中提及
DeepGraphLearning/RecommenderSystems
官方
tf
GitHub 中提及
UlionTse/mlgb
pytorch
GitHub 中提及
shichence/AutoInt
tf
GitHub 中提及
shenweichen/DeepCTR-Torch
pytorch
GitHub 中提及
manujosephv/pytorch_tabular
pytorch
GitHub 中提及
massquantity/LibRecommender
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| click-through-rate-prediction-on-avazu | AutoInt | AUC: 0.7752 LogLoss: 0.3823 |
| click-through-rate-prediction-on-criteo | AutoInt | AUC: 0.8061 Log Loss: 0.4454 |
| click-through-rate-prediction-on-kdd12 | AutoInt | AUC: 0.7881 Log Loss: 0.1545 |
| click-through-rate-prediction-on-kkbox | AutoInt+ | AUC: 0.8534 |
| click-through-rate-prediction-on-movielens-1m | AutoInt | AUC: 0.846 Log Loss: 0.3784 |