Federated Dropout is an efficient technique to overcome both communication and computation bottlenecks for deploying federated learning at the network edge. In each training round, an edge device only needs to update and transmit a sub-model, which is generated by the typical method of dropout in deep learning, and thus effectively reduces the per-round latency. \textcolor{blue}{However, the theoretical convergence analysis for Federated Dropout is still lacking in the literature, particularly regarding the quantitative influence of dropout rate on convergence}. To address this issue, by using the Taylor expansion method, we mathematically show that the gradient variance increases with a scaling factor of $γ/(1-γ)$, with $γ\in [0, θ)$ denoting the dropout rate and $θ$ being the maximum dropout rate ensuring the loss function reduction. Based on the above approximation, we provide the convergence analysis for Federated Dropout. Specifically, it is shown that a larger dropout rate of each device leads to a slower convergence rate. This provides a theoretical foundation for reducing the convergence latency by making a tradeoff between the per-round latency and the overall rounds till convergence. Moreover, a low-complexity algorithm is proposed to jointly optimize the dropout rate and the bandwidth allocation for minimizing the loss function in all rounds under a given per-round latency and limited network resources. Finally, numerical results are provided to verify the effectiveness of the proposed algorithm.
Federated Dropout: Convergence Analysis and Resource Allocation
- 论文ID: 2501.00379
- 标题: Federated Dropout: Convergence Analysis and Resource Allocation
- 作者: Sijing Xie, Dingzhu Wen, Xiaonan Liu, Changsheng You, Tharmalingam Ratnarajah, Kaibin Huang
- 分类: cs.LG cs.IT math.IT
- 发表时间: 2024年12月31日
- 论文链接: https://arxiv.org/abs/2501.00379
联邦Dropout是一种有效技术,可以克服在网络边缘部署联邦学习时的通信和计算瓶颈。在每轮训练中,边缘设备只需要更新和传输一个子模型,该子模型通过深度学习中的典型dropout方法生成,从而有效减少了每轮延迟。然而,文献中仍缺乏对联邦Dropout的理论收敛分析,特别是关于dropout率对收敛的定量影响。为解决这一问题,本文使用泰勒展开方法,数学证明了梯度方差以γ/(1-γ)的比例因子增长,其中γ∈[0,θ)表示dropout率,θ是确保损失函数减少的最大dropout率。基于此近似,本文提供了联邦Dropout的收敛分析,表明每个设备的dropout率越大,收敛速度越慢。这为通过在每轮延迟和收敛总轮数之间进行权衡来减少收敛延迟提供了理论基础。
- 边缘AI的需求激增:移动数据爆炸推动了网络边缘AI部署,联邦边缘学习(FEEL)成为实现边缘AI的有前途技术
- 计算资源限制:边缘设备面临严重的计算资源限制,而现代深度神经网络(DNNs)和大语言模型(LLMs)需要大量计算能力
- 现有方法的局限性:
- 通信高效方法(梯度压缩、设备调度等)主要解决通信瓶颈
- 模型剪枝方法在训练早期仍有大量通信开销,且通常降低模型表示能力
- 缺乏对计算开销的本质性减少
- 理论空白:FedDrop框架虽然实用,但缺乏严格的理论收敛分析
- 优化需求:需要理论指导来优化dropout率和资源分配的联合设计
- 实际应用:为资源受限环境中的联邦学习提供理论基础和实用算法
- 收敛理论分析:
- 使用泰勒展开证明子网梯度向量是原始DNN梯度向量的方差有界估计
- 数学证明梯度方差与γ/(1-γ)成正比
- 建立了dropout率与收敛速度的定量关系
- 每轮损失函数最小化:
- 基于理论分析,刻画了任意轮次的学习损失减少
- 在系统带宽、任务完成延迟和设备能量预算约束下,最大化学习损失减少
- 联合优化算法:
- 提出自适应dropout率和带宽分配的联合设计
- 通过KKT条件获得闭式解
- 算法复杂度仅为O(K²)
- 性能评估:
- 在欠拟合和过拟合两种场景下进行数值实验
- 验证了理论分析的正确性
输入:K个边缘设备,每个设备k持有本地数据集Dk
目标:最小化全局损失函数:
F(w)=∑k=1K∣D∣∣Dk∣fk(w^k;Dk)
其中w^k是设备k对应的dropout生成子网,fk是设备k的本地损失函数。
FedDrop框架包含五个步骤:
- 生成阶段:服务器为每个设备生成子网
- 推送阶段:设备下载对应子网
- 计算阶段:设备基于本地数据更新子网
- 拉取阶段:设备上传更新后的子网
- 聚合阶段:服务器聚合所有子网更新全局模型
对于dropout率为γk的设备k,子网定义为:
w^k=w∘mk
其中dropout掩码mk的第j个元素为:
mk,j={1−γk1,0,概率为(1−γk)概率为γk
每轮总延迟:
Tk,t=Tk,tcom,dl+Tk,tcmp+Tk,tcom,ul
总能耗:
Ek,t=Ek,tcom,ul+Ek,tcmp+ξk
引理1:在假设条件下,子网梯度向量是方差有界的估计:
Emk(t)[g^k(w^k(t))]=g~k(w(t))Dmk(t)[g^k(w^k(t))]≤(AG)2⋅1−γk,tγk,t
定理1:给定学习率η = 1/(3√TL),ground-truth梯度向量收敛为:
limT→+∞T1∑t=0T−1∥g(w(t))∥2≤GT=0
关键发现:收敛速度随dropout率增加而降低。
min{γk,t,ρk,t}∑k=1K∣D∣∣Dk∣1−γk,t1
受约束:
- C1: 每轮延迟约束
- C2: 能耗约束
- C3: 带宽分配约束
- C4: Dropout率约束
- CIFAR-100:用于训练LeNet和AlexNet
- 数据分布:
- IID分布
- Non-IID分布(使用Dirichlet(0.1)分布)
- LeNet(欠拟合场景):
- 2个卷积层 + 2个全连接层
- 卷积核大小:5×5
- 激活函数:Tanh
- AlexNet(过拟合场景):
- 5个卷积层 + 2个全连接层
- 卷积核大小:3×3
- 激活函数:ReLU
- 提出方案:Algorithm 1的最优方案
- 带宽感知方案:随机分配带宽,优化dropout率
- 无Dropout方案:理想基准,不考虑dropout
- 欠拟合场景:测试准确率随dropout率增加而降低
- 过拟合场景:适中的dropout率(0.15)获得最佳性能,过高dropout率性能下降
每轮延迟的影响:
- 提出方案始终优于带宽感知方案
- 随着每轮延迟增加,收敛轮数减少
- 延迟增加时,与无dropout方案的性能差距缩小
系统带宽的影响:
- 系统带宽增加,收敛轮数减少
- 提出方案在各种带宽条件下均优于基线方法
根据表II,在相同稀疏度下:
- LeNet上FedDrop在Non-IID数据上准确率从25.19%(γ=0)降至19.09%(γ=0.4)
- AlexNet上FedDrop在Non-IID数据上准确率先升后降,在γ=0.15时达到峰值32.77%
通过比较不同dropout率的统一设置,验证了:
- 较小dropout率导致更快收敛
- 理论分析的正确性
- 过拟合场景下dropout的正则化效果
- 理论验证:实验结果与理论分析一致,证明dropout率与收敛速度负相关
- 资源权衡:更多网络资源允许更低dropout率,提升性能
- 场景适应性:过拟合场景下提出方案优于无dropout方案
- 部分梯度平均、梯度压缩、资源管理、设备调度、空中计算、知识蒸馏等
- 模型剪枝联邦学习(PruneFL)
- 自适应模型剪枝
- 子网训练框架:静态、滚动、重要性导向方案
- 低设计复杂度:仅需dropout操作
- 多功能适应性:dropout率可适应设备能力和网络条件
- 高模型多样性:随机性带来的多样化训练
- 强模型鲁棒性:增强模型鲁棒性,消除神经元间简单依赖
- 首次提供FedDrop的严格理论收敛分析
- 建立了dropout率与收敛速度的定量关系
- 提出了低复杂度的联合优化算法
- 实验验证了理论分析和算法有效性
- 假设条件:基于小dropout率假设进行分析
- 模型范围:主要考虑DNNs,LLMs留待未来研究
- 信道模型:假设频率非选择性信道
- 优化目标:使用损失函数上界而非精确值
- 扩展到大语言模型(LLMs)
- 结合压缩和空中计算技术
- 考虑更复杂的信道模型
- 动态网络环境下的自适应策略
- 理论贡献显著:首次为FedDrop提供严格的收敛分析,填补了重要理论空白
- 数学推导严谨:使用泰勒展开和KKT条件,数学证明完整可靠
- 实用价值高:O(K²)复杂度的算法适合实际部署
- 实验全面:涵盖欠拟合和过拟合两种场景,验证充分
- 写作清晰:结构清晰,技术细节表述准确
- 假设限制:小dropout率假设可能限制实际应用范围
- 模型局限:仅在相对简单的网络上验证,缺乏大规模模型实验
- 环境简化:单小区网络模型,实际部署环境更复杂
- 对比有限:与其他子网训练方法的对比不够充分
- 学术价值:为联邦学习中的dropout技术提供理论基础
- 实用意义:为边缘计算环境下的联邦学习提供可行方案
- 可复现性:算法描述详细,参数设置明确,便于复现
- 资源受限边缘设备:计算和通信能力有限的IoT设备
- 带宽受限网络:需要减少通信开销的无线网络环境
- 实时应用:对延迟敏感的边缘AI应用
- 大规模部署:需要支持大量设备参与的联邦学习系统
论文引用了50篇相关文献,涵盖了联邦学习、边缘计算、资源分配、模型压缩等多个相关领域的重要工作,为研究提供了坚实的理论基础。
总评:这是一篇在联邦学习理论分析方面有重要贡献的论文。作者首次为FedDrop提供了严格的收敛分析,建立了dropout率与收敛性能的定量关系,并提出了实用的联合优化算法。理论推导严谨,实验验证充分,对推动联邦学习在边缘计算环境中的应用具有重要意义。