
摘要
点击率预测是工业应用中的一个重要任务,例如在线广告。近年来,提出了基于深度学习的模型,这些模型遵循类似的嵌入与多层感知器(Embedding&MLP)范式。在这些方法中,大规模稀疏输入特征首先被映射到低维嵌入向量,然后以组的方式转换为固定长度向量,最后连接在一起输入多层感知器(MLP),以学习特征之间的非线性关系。通过这种方式,用户特征被压缩成一个固定长度的表示向量,而不考虑候选广告的具体情况。使用固定长度向量将成为一个瓶颈,使得嵌入与多层感知器(Embedding&MLP)方法难以从丰富的历史行为中有效捕捉用户的多样化兴趣。在本文中,我们提出了一种新颖的模型:深度兴趣网络(Deep Interest Network, DIN),该模型通过设计局部激活单元来应对这一挑战,从而自适应地从历史行为中学习针对特定广告的用户兴趣表示。这种表示向量会随着不同的广告而变化,极大地提高了模型的表达能力。此外,我们开发了两种技术:小批量感知正则化和数据自适应激活函数,这些技术有助于训练具有数亿参数的工业深度网络。在两个公开数据集以及阿里巴巴超过20亿样本的真实生产数据集上的实验表明了所提方法的有效性,其性能优于现有的最先进方法。目前,DIN已成功部署在阿里巴巴的在线展示广告系统中,并为主流量提供服务。
代码仓库
reczoo/FuxiCTR
pytorch
zhougr1993/DeepInterestNetwork
官方
tf
GitHub 中提及
YunjiaXi/Multi-Level-Interaction-Reranking
tf
GitHub 中提及
StephenBo-China/DIEN-DIN
tf
GitHub 中提及
mikudehuane/Configurable-Tensorflow-DIN
tf
GitHub 中提及
YafeiWu/DIEN
tf
GitHub 中提及
shenweichen/DeepCTR
tf
GitHub 中提及
alibaba/TorchEasyRec
pytorch
johnlevi/recsys
GitHub 中提及
UlionTse/mlgb
pytorch
GitHub 中提及
StephenBo-China/recommendation_system_sort_model
tf
GitHub 中提及
searchlink/din
tf
GitHub 中提及
tangxyw/RecAlgorithm
tf
GitHub 中提及
shenweichen/DeepCTR-Torch
pytorch
GitHub 中提及
GitHub-HongweiZhang/prediction-flow
pytorch
GitHub 中提及
imvishvaraj/ctr_nlp
GitHub 中提及
massquantity/LibRecommender
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| click-through-rate-prediction-on-amazon | DIN | AUC: 0.8818 |
| click-through-rate-prediction-on-amazon | DIN + Dice Activation | AUC: 0.8871 |
| click-through-rate-prediction-on-movielens | DIN + Dice Activation | AUC: 0.7348 |
| click-through-rate-prediction-on-movielens | DIN | AUC: 0.7337 |