4 个月前

评估基线的困难:推荐系统研究

评估基线的困难:推荐系统研究

摘要

数值评估与基线对比在推荐系统研究的评判中起着核心作用。本文表明,正确运行基线是一项具有挑战性的任务。我们通过两个广泛研究的数据集展示了这一问题。首先,我们指出,在过去五年中用于Movielens 10M基准测试的多个基线结果是次优的。通过对一个简单的矩阵分解基线进行仔细设置,我们不仅能够改进已报告的该基线的结果,甚至还能超越任何新提出方法的已报告结果。其次,我们回顾了社区为在Netflix Prize上获得高质量简单方法结果所付出的巨大努力。我们的研究表明,除非研究论文中的实证发现是在经过研究社区广泛调参的标准基准上获得的,否则这些发现值得怀疑。

代码仓库

基准测试

基准方法指标
collaborative-filtering-on-movielens-10mSGD MF
RMSE: 0.772
collaborative-filtering-on-movielens-10mBayesian timeSVD++
RMSE: 0.7523
collaborative-filtering-on-movielens-10mBayesian SVD++
RMSE: 0.7563
collaborative-filtering-on-movielens-10mU-RBM
RMSE: 0.823
collaborative-filtering-on-movielens-10mBayesian timeSVD++ flipped
RMSE: 0.7485

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
评估基线的困难:推荐系统研究 | 论文 | HyperAI超神经