Thomas MoreauMathurin MassiasAlexandre GramfortPierre AblinPierre-Antoine BannierBenjamin CharlierMathieu DagréouTom Dupré la TourGhislain DurifCassio F. DantasQuentin KlopfensteinJohan LarssonEn LaiTanguy LefortBenoit MalézieuxBadr MoufadBinh T. NguyenAlain RakotomamonjyZaccharie RamziJoseph SalmonSamuel Vaiter

摘要
数值验证是机器学习研究的核心环节,它能够评估新方法的实际效果,并验证理论与实践之间的一致性。然而,该领域的快速发展带来了诸多挑战:研究人员面临大量需比较的方法、缺乏透明度与最佳实践的共识,以及繁琐的重复实现工作。结果导致验证过程往往十分片面,可能引发错误结论,从而阻碍研究进展。为此,我们提出 Benchopt——一个协作式框架,旨在跨编程语言和硬件架构自动化、可复现地开展机器学习优化算法的基准测试。Benchopt 通过提供开箱即用的工具,简化了社区在运行、共享与扩展实验方面的流程。为展示其广泛的适用性,我们展示了在三个标准学习任务上的基准测试:$\ell_2$-正则化逻辑回归、Lasso 回归,以及用于图像分类的 ResNet18 训练。这些基准测试揭示了若干关键的实用发现,为这些问题的当前技术水平提供了更为细致的洞察,表明在实际评估中,细节决定成败。我们期望 Benchopt 能够推动社区内的协作研究,从而提升研究成果的可复现性。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-cifar-10 | ResNet-18 | Percentage correct: 95.55 |
| image-classification-on-svhn | ResNet-18 | Percentage error: 2.65 |
| stochastic-optimization-on-cifar-10-resnet-18 | SGD - cosine LR schedule | Accuracy: 95.55 |