
摘要
数值评估与基线对比在推荐系统研究的评判中起着核心作用。本文表明,正确运行基线是一项具有挑战性的任务。我们通过两个广泛研究的数据集展示了这一问题。首先,我们指出,在过去五年中用于Movielens 10M基准测试的多个基线结果是次优的。通过对一个简单的矩阵分解基线进行仔细设置,我们不仅能够改进已报告的该基线的结果,甚至还能超越任何新提出方法的已报告结果。其次,我们回顾了社区为在Netflix Prize上获得高质量简单方法结果所付出的巨大努力。我们的研究表明,除非研究论文中的实证发现是在经过研究社区广泛调参的标准基准上获得的,否则这些发现值得怀疑。
代码仓库
tohtsky/myFM
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| collaborative-filtering-on-movielens-10m | SGD MF | RMSE: 0.772 |
| collaborative-filtering-on-movielens-10m | Bayesian timeSVD++ | RMSE: 0.7523 |
| collaborative-filtering-on-movielens-10m | Bayesian SVD++ | RMSE: 0.7563 |
| collaborative-filtering-on-movielens-10m | U-RBM | RMSE: 0.823 |
| collaborative-filtering-on-movielens-10m | Bayesian timeSVD++ flipped | RMSE: 0.7485 |