6 个月前

摘要

在联邦学习设置中训练的模型往往面临性能下降且泛化能力不足的问题，尤其是在面对数据异构场景时更为显著。本文从损失函数的几何结构及Hessian矩阵特征谱的角度，深入探究了这一现象，揭示了模型泛化能力缺失与最优解“尖锐性”之间的内在联系。受先前研究中损失曲面尖锐性与泛化差距之间关联的启发，我们提出：i）在客户端采用尖锐性感知最小化（Sharpness-Aware Minimization, SAM）或其自适应版本（Adaptive SAM, ASAM）进行本地训练；ii）在服务器端采用随机权重平均（Stochastic Weight Averaging, SWA）进行模型聚合，这两种策略可显著提升联邦学习的泛化性能，并有效缩小与集中式训练模型之间的性能差距。通过在损失值均匀低的参数邻域中寻找最优解，模型能够收敛至更平坦的极小值点，从而在同质与异质两种场景下均显著提升泛化能力。实验结果表明，上述优化方法在多个基准视觉数据集（如CIFAR10/100、Landmarks-User-160k、IDDA）以及多种任务（包括大规模分类、语义分割、领域泛化）上均表现出优异的性能与广泛的有效性。

源 PDF