
摘要
联邦学习(Federated Learning, FL)为跨分布式数据源的协作式、隐私保护机器学习提供了一个极具前景的框架。然而,FL所伴随的高昂通信开销显著制约了其效率。具体而言,在每一通信轮次中,通信成本随模型维度呈线性增长,这在大规模模型场景下尤为突出,构成重大挑战。尽管已有多种通信高效策略被提出,但模型维度依赖的固有通信开销仍是当前FL实现中的主要瓶颈。本文提出一种新型的维度无关通信算法——DeComFL,该算法基于零阶优化技术,通过在每轮通信中仅在客户端与服务器之间传输固定数量的标量值,将通信成本从 $\mathscr{O}(d)$ 降低至 $\mathscr{O}(1)$,且该过程与模型参数维度 $d$ 无关。理论上,在非凸函数设定下,我们证明该算法达到了当前最优的收敛速率,且在标准假设下展现出客户端数量和本地迭代步数的线性加速效果。在额外引入低有效秩假设的前提下,进一步证明其收敛速率亦与模型维度 $d$ 无关。实验评估涵盖经典深度学习训练与大语言模型微调任务,结果表明DeComFL显著降低了通信开销。值得注意的是,仅需在服务器与客户端之间传输约1MB的总数据量,即可完成一个拥有数十亿参数模型的微调过程。相关代码已开源,地址为:https://github.com/ZidongLiu/DeComFL。
代码仓库
ZidongLiu/DeComFL
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-boolq | OPT-1.3B | Test Accuracy: 62.5% |
| classification-on-boolq | OPT-125M | Test Accuracy: 61.6% |
| classification-on-cb | OPT-125M | Test Accuracy: 75% |
| classification-on-cb | OPT-1.3B | Test Accuracy: 75.71% |
| classification-on-rte | OPT-1.3B | Test Accuracy: 60.89% |
| classification-on-rte | OPT-125M | Test Accuracy: 57.05% |
| classification-on-sst-2 | OPT-125M | Test Accuracy: 85.08% |
| classification-on-sst-2 | OPT-1.3B | Test Accuracy: 90.78% |
| classification-on-wic | OPT-1.3B | Test Accuracy: 56.14% |
| classification-on-wic | OPT-125M | Test Accuracy: 53.38% |
| classification-on-wsc | OPT-125M | Test Accuracy: 59.59% |
| classification-on-wsc | OPT-1.3B | Test Accuracy: 64.16% |