3 个月前

无限推荐网络:一种数据驱动的方法

无限推荐网络:一种数据驱动的方法

摘要

我们利用神经正切核(Neural Tangent Kernel)及其与无限宽神经网络训练等价性的特性,提出了一种具有无限宽瓶颈层的自编码器——∞-AE。该模型具备高度表达能力且结构极为简洁,仅含一个超参数,并拥有闭式解。基于∞-AE的简洁性,我们进一步开发了Distill-CF方法,用于生成极小但高保真的数据摘要,能够提炼出超大规模、高度稀疏的用户-物品交互矩阵中最具价值的知识,从而实现对后续数据使用任务(如模型训练、推理、架构搜索等)的高效与精准支持。这一方法采用数据驱动的推荐范式,旨在提升日志中用户反馈数据的质量,以服务于后续建模,且不依赖于具体的学习算法。我们特别引入可微分Gumbel采样技术,以有效应对数据固有的异构性、稀疏性与半结构化特征,同时具备处理包含数亿级用户-物品交互数据集的可扩展性。我们提出的两种方法均显著优于各自领域的最先进水平;当二者结合使用时,仅需原始数据集规模的0.1%,即可实现接近全量数据下∞-AE 96%至105%的性能表现。这一结果促使我们提出一个反直觉的问题:在推荐系统中,真的需要更多数据才能获得更好的效果吗?

代码仓库

noveens/infinite_ae_cf
官方
jax
GitHub 中提及
recsys-benchmark/daisyrec-v2.0
pytorch
GitHub 中提及
AmazingDD/daisyRec
pytorch
GitHub 中提及
noveens/distill_cf
官方
jax
GitHub 中提及

基准测试

基准方法指标
collaborative-filtering-on-douban∞-AE
AUC: 0.9523
HR@10: 0.2356
HR@100: 0.2837
PSP@10: 0.0128
nDCG@10: 0.2494
nDCG@100: 0.2326
collaborative-filtering-on-movielens-1m∞-AE
HR@10: 0.3151
HR@100: 0.6005
PSP@10: 0.0322
nDCG@10: 0.3282
nDCG@100: 0.4253
collaborative-filtering-on-netflix∞-AE
AUC: 0.9728
PSP@10: 0.0375
Recall@10: 0.2969
Recall@100: 0.5088
nDCG@10: 0.3059
nDCG@100: 0.3659

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无限推荐网络:一种数据驱动的方法 | 论文 | HyperAI超神经