3 个月前

BOLT:一种在通用CPU硬件上自动化训练与部署大规模搜索与推荐模型的深度学习框架

BOLT:一种在通用CPU硬件上自动化训练与部署大规模搜索与推荐模型的深度学习框架

摘要

在通用CPU硬件上实现大规模神经网络的高效训练与推理,对于推动深度学习(DL)能力的普及具有重要的现实意义。目前,训练包含数亿至数十亿参数的大型模型,通常依赖于专用硬件加速器(如GPU),而这类设备仅少数财力雄厚的机构能够负担。此外,这些模型的训练与部署往往伴随着显著的碳足迹,带来严峻的环境挑战。本文提出一种名为BOLT的稀疏深度学习库,旨在通过在标准CPU硬件上训练大规模搜索与推荐模型,逐步应对上述难题。BOLT为用户提供了灵活且高层次的API,其设计风格与现有主流深度学习框架保持一致,便于用户快速上手。通过自动调优特定超参数,BOLT进一步抽象了稀疏网络训练中的算法细节,显著降低了使用门槛。我们在多个信息检索任务上对BOLT进行了评估,包括商品推荐、文本分类、图神经网络以及个性化建模等。实验结果表明,BOLT在保持与当前最先进方法相当性能的同时,实现了成本与能耗的大幅降低,并将推理速度提升了一个数量级。目前,BOLT已成功部署于多家企业,用于解决关键业务问题,本文还特别呈现了一则在电子商务领域的客户应用案例。

基准测试

基准方法指标
fraud-detection-on-yelp-fraudBOLT-GRAPH
AUC-ROC: 93.18
node-classification-on-yelpchiBOLT-GRAPH
AUC-ROC: 93.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BOLT:一种在通用CPU硬件上自动化训练与部署大规模搜索与推荐模型的深度学习框架 | 论文 | HyperAI超神经