3 个月前

$D^2$:去中心化数据上的去中心化训练

$D^2$:去中心化数据上的去中心化训练

摘要

在使用多个工作节点(worker)并行训练机器学习模型时,若各工作节点从各自独立的数据源中采集数据,且这些数据具有显著差异性,则往往能带来更好的模型性能。然而,颇具讽刺意味的是,近期对去中心化并行随机梯度下降(Decentralized Parallel Stochastic Gradient Descent, D-PSGD)的分析却依赖于一个关键假设:不同工作节点所持有的数据分布不能相差过大。针对这一矛盾,本文提出一个核心问题:能否设计一种对工作节点间数据差异性不敏感的去中心化并行随机梯度下降算法?为此,本文提出了 D²——一种专为应对工作节点间显著数据差异(即“去中心化”数据)而设计的新型去中心化并行随机梯度下降算法。D² 的核心思想是对 D-PSGD 进行方差缩减(variance reduction)的扩展。该改进将算法的收敛速率从原来的 $ O\left( \frac{\sigma}{\sqrt{nT}} + \frac{(n\zeta^2)^{1/3}}{T^{2/3}} \right) $ 提升至 $ O\left( \frac{\sigma}{\sqrt{nT}} \right) $,其中 $ \zeta^2 $ 表示不同工作节点间数据分布的方差。这一改进使得 D² 在面对工作节点间数据差异较大时仍具有良好的收敛性能,因而对数据方差具有更强的鲁棒性。我们在图像分类任务上对 D² 进行了实验评估,设定每个工作节点仅能访问有限类别标签的数据。实验结果表明,D² 在性能上显著优于传统的 D-PSGD,验证了其在真实异构数据场景下的有效性与优越性。

基准测试

基准方法指标
multi-view-subspace-clustering-on-orlDCSC
Accuracy: 0.811

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
$D^2$:去中心化数据上的去中心化训练 | 论文 | HyperAI超神经