2025-11-25T14:25:18.089963

FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios

Zhao, Zhu, Zhang et al.
Federated efficient fine-tuning has emerged as an approach that leverages distributed data and computational resources across nodes to address the challenges of large-scale fine-tuning and privacy preservation. The Low-Rank Adaptation (LoRA) enables efficient fine-tuning of large-scale pre-trained models by introducing trainable low-rank matrices into weight updates.However, in heterogeneous data scenarios, client drift weakens the generalization of the global model, and local models often fail to meet the personalized needs of individual clients.Moreover, existing federated LoRA efficient fine-tuning techniques overlook fine-grained analysis of the tuning matrices. To address this, we conducted preliminary experiments and found that different LoRA matrices exhibit different sensitivity to changes in the direction and magnitude of their vectors.We thus propose a fine-grained federated LoRA tuning method. By fine-tuning the more sensitive directional vectors in the A matrix, which encode shared knowledge, our method learns shared features more effectively across clients and enhances global generalization. Simultaneously, by fine-tuning the more sensitive magnitude vectors in the B matrix, which encode personalized knowledge, our method better captures personalized knowledge, enabling detailed adaptation to local data. The method uses a pipeline combining global and local optimizers. Global optimization further improves local models, achieving collaborative optimization between global and local levels. This improves both the generalization ability of the global model and the personalized adaptation of local models under heterogeneous data scenarios. Experiments on Databricks-Dolly-15k and Natural Instructions with LLaMA2-7B and Deepseek-7B confirm that our method improves global performance by 0.39% and local performance by 0.59%.
academic

FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios

基本信息

  • 论文ID: 2510.11274
  • 标题: FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios
  • 作者: Jianzhe Zhao, Hailin Zhu, Yu Zhang, Ziqi Chen, Guibing Guo (东北大学)
  • 分类: cs.LG (机器学习)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11274

摘要

联邦高效微调作为一种利用跨节点分布式数据和计算资源的方法,解决了大规模微调和隐私保护的挑战。低秩适应(LoRA)通过在权重更新中引入可训练的低秩矩阵,实现了大规模预训练模型的高效微调。然而,在异构数据场景下,客户端漂移削弱了全局模型的泛化能力,局部模型往往无法满足个体客户端的个性化需求。此外,现有的联邦LoRA高效微调技术忽略了对调优矩阵的细粒度分析。为此,本文进行了初步实验,发现不同的LoRA矩阵对其向量的方向和幅度变化表现出不同的敏感性。基于此发现,提出了一种细粒度的联邦LoRA调优方法,通过微调A矩阵中编码共享知识的更敏感的方向向量来更有效地学习跨客户端的共享特征,增强全局泛化能力;同时通过微调B矩阵中编码个性化知识的更敏感的幅度向量来更好地捕获个性化知识。该方法使用结合全局和局部优化器的流水线架构,在异构数据场景下改善了全局模型的泛化能力和局部模型的个性化适应性。

研究背景与动机

研究问题

本文要解决的核心问题是在异构数据环境下的联邦LoRA微调效率低下的问题,具体包括:

  1. 客户端漂移问题:在数据异构的联邦学习环境中,客户端之间数据分布的差异导致全局模型泛化能力下降
  2. 个性化需求不足:局部模型无法很好地满足各个客户端的个性化需求
  3. 缺乏细粒度分析:现有方法忽略了对LoRA调优矩阵的精细化分析

问题重要性

随着大型预训练模型的广泛应用,如何在保护隐私的前提下高效地进行分布式微调成为关键挑战。联邦学习提供了一种解决方案,但在异构数据场景下面临性能退化问题,这直接影响了大模型在实际应用中的效果。

现有方法局限性

  1. 传统联邦学习方法:如FedAvg在数据异构性下收敛困难,准确率下降
  2. 现有联邦LoRA方法:主要关注模型架构设计,缺乏对微调矩阵变化的细粒度分析
  3. 参数效率方法:虽然减少了通信成本,但在异构环境下全局泛化和个性化适应之间的平衡仍然困难

研究动机

作者通过实验发现LoRA的A矩阵和B矩阵在方向和幅度变化上表现出不同的敏感性模式,这为设计针对性的优化策略提供了理论基础。

核心贡献

  1. 细粒度实证分析:首次对LoRA微调矩阵的方向和幅度变化进行了细粒度分析,发现A矩阵的方向变化约为B矩阵的1.7倍,而B矩阵的幅度变化约为A矩阵的41倍
  2. 针对异构数据的细粒度联邦微调方法:提出了分别优化A矩阵中高敏感方向向量和B矩阵中高敏感幅度向量的方法,显著增强了全局模型的泛化能力和局部模型的适应性
  3. 全局-局部协同优化架构:设计了结合全局和局部优化器的流水线架构,实现了全局和局部层面的协同优化
  4. 实验验证:在LLaMA2-7B和Deepseek-7B模型上使用Databricks-Dolly-15k和Natural Instructions数据集进行验证,全局任务准确率提升约0.39%,局部任务提升约0.59%

方法详解

任务定义

本文研究的是在联邦学习环境下的大语言模型高效微调任务。给定N个客户端,每个客户端i拥有本地数据集Di,目标是在不共享原始数据的前提下,训练出既具有良好全局泛化能力又能满足各客户端个性化需求的模型。

关键观察与发现

通过在LLaMA2-7B模型上的实验分析,作者发现了两个重要观察:

观察1:A矩阵的方向变化约为B矩阵的1.7倍

  • A矩阵主要编码跨任务的共享知识,可视为全局知识的"基础框架"
  • 方向向量的变化直接影响全局任务的训练性能

观察2:B矩阵的幅度变化约为A矩阵的41倍

  • B矩阵主要编码任务特定的个性化信息
  • 幅度向量的变化对下游任务的训练效果起关键作用

模型架构

矩阵分解策略

借鉴DoRA的思想,将LoRA矩阵分解为方向和幅度分量:

A = AM · AD, B = BM · BD

其中AM、BM表示幅度向量,AD、BD表示方向向量。

全局优化器

目标:增强全局模型的泛化能力
策略:重点调整A矩阵的方向向量

联邦聚合公式:

ĀD = (1/N) ∑(i=1 to N) AD,i
ĀM = (1/N) ∑(i=1 to N) AM,i  
B̄M = (1/N) ∑(i=1 to N) BM,i
B̄D = (1/N) ∑(i=1 to N) BD,i

全局模型更新:

Wg = W0 + B̄M · B̄D · ĀM · (ĀD + ΔAD,g)

局部优化器

目标:提升个性化模型性能
策略:重点调整B矩阵的幅度向量

局部模型更新:

Wl = Wg + (B̄'M + ΔB'M,l) · B̄'D · Ā'M · Ā'D

局部损失函数:

Llocal = Ltask(Wlx,y) + (λ/2)||ΔMl||²F

梯度更新公式:

∇ΔMlocalLlocal = B̄'D · Ā'M · Ā'D · ∇ypredLtask + λ · ΔMlocal

技术创新点

  1. 基于敏感性的差异化优化:根据A、B矩阵对方向和幅度变化的不同敏感性,采用针对性的优化策略
  2. 流水线架构设计:全局优化器先训练全局模型,局部优化器再基于全局模型进行个性化调优
  3. 细粒度参数控制:分别控制方向向量和幅度向量的更新,实现更精细的参数调优

实验设置

数据集

  • Databricks-Dolly-15k:包含多种下游任务的指令微调数据集
  • Natural Instructions:自然指令数据集
  • 任务类型:选择三种代表性任务模拟异构环境
    • 因果推理(Causal)
    • 问答(QA)
    • 信息抽取(IE)
  • 数据划分:80%训练集,20%测试集

评价指标

  • 准确率(Accuracy):通过模型输出与目标响应之间的语义相似度衡量答案准确性
  • 全局性能:在所有任务组合(ALL)上的表现
  • 局部性能:在各个具体任务上的表现

对比方法

  • LoRA:标准LoRA算法,只训练适配器参数
  • Prompt Tuning:基于提示的轻量级微调技术
  • Adapt Tuning:另一种参数高效微调方法

实现细节

  • 模型:LLaMA2-7B、DeepSeek-7B
  • LoRA参数:rank=8, scaling factor=32, dropout=0.1
  • 应用层:仅应用于自注意力的Q和V子层
  • 硬件:A800 Linux服务器,100GB RAM,14核Intel Xeon Gold 6348 CPU

实验结果

主要结果

LLaMA2-7B结果

Natural Instructions数据集

  • PH任务:11.62% vs LoRA的11.46%
  • QA任务:66.69% vs LoRA的61.69%
  • IE任务:21.18% vs LoRA的22.85%
  • ALL任务:32.44% vs LoRA的33.04%
  • 整体准确率提升0.73%

Databricks-Dolly-15k数据集

  • Causal任务:18.99% vs LoRA的18.59%
  • QA任务:40.57% vs LoRA的40.48%
  • IE任务:27.91% vs LoRA的25.91%
  • ALL任务:26.20% vs LoRA的25.70%
  • 整体准确率提升0.75%

DeepSeek-7B结果

Natural Instructions数据集

  • 整体改进1.11%,从6.00%提升至6.44%

Databricks-Dolly-15k数据集

  • 整体改进0.53%,从18.90%提升至20.10%

参数分析

通过对不同rank设置的分析发现,当r=8, n=2时模型达到最佳性能,在因果推理任务上准确率为18.59%。

消融实验

流水线结构有效性验证

  • 对比了"全局优化+局部优化"的流水线结构与仅使用局部优化的方法
  • 实验结果显示流水线模式在所有三个任务(Causal、IE、QA)上都优于非流水线模式
  • 证明了阶段性训练策略的有效性

实验发现

  1. 方向vs幅度的差异化敏感性得到验证:A矩阵方向变化确实比B矩阵大约1.7倍,B矩阵幅度变化比A矩阵大约41倍
  2. 流水线架构的必要性:全局优化后再进行局部优化比直接局部优化效果更好
  3. 参数设置的重要性:合适的rank设置对性能有显著影响

相关工作

参数高效微调

  • Adapters:在Transformer层中插入小型可训练模块
  • LoRA:将权重矩阵分解为低秩组件,只更新旁路模块
  • DoRA:进一步将LoRA矩阵分解为"幅度+方向"
  • Prompt Tuning:通过精心设计的文本提示引导模型

联邦学习

  • FedAvg:通过平均更新进行全局优化,但在数据异构性下表现不佳
  • FedProx:添加近端项约束局部更新偏差
  • SCAFFOLD:使用控制变量纠正"客户端漂移"
  • 个性化联邦学习:构建定制化客户端模型

参数高效联邦微调

  • FFA-LoRA:固定一个低秩矩阵同时微调另一个以提高稳定性
  • 零阶优化方法:通过共享随机种子实现大模型的联邦微调

结论与讨论

主要结论

  1. 细粒度分析的价值:对LoRA矩阵方向和幅度变化的细粒度分析揭示了重要的敏感性差异模式
  2. 差异化优化策略的有效性:针对A矩阵方向向量和B矩阵幅度向量的差异化优化策略能够同时提升全局泛化和局部个性化能力
  3. 流水线架构的优势:全局-局部协同优化比单纯的局部优化更有效

局限性

  1. 性能提升有限:虽然方法有效,但整体性能提升相对有限(0.39%-0.59%)
  2. 计算复杂度:流水线架构增加了训练的计算复杂度
  3. 适用范围:主要在大语言模型上验证,在其他类型模型上的泛化性有待验证
  4. 异构程度依赖:方法效果可能依赖于数据异构的程度

未来方向

作者提出未来将探索优化策略以提升模型在异构环境下的适应性和微调效率,包括:

  1. 进一步优化全局-局部协同机制
  2. 探索更高效的参数分解和聚合策略
  3. 扩展到更多类型的模型和任务

深度评价

优点

  1. 创新的理论洞察:首次从细粒度角度分析LoRA矩阵的敏感性差异,为优化策略提供了理论基础
  2. 方法设计合理:基于实证观察设计的差异化优化策略具有很强的合理性
  3. 实验设计完整:包含了充分的对比实验、参数分析和消融实验
  4. 问题定义清晰:准确识别了联邦LoRA微调中的关键挑战

不足

  1. 性能提升幅度有限:相比方法复杂度,性能提升相对较小
  2. 理论分析不够深入:缺乏对为什么A、B矩阵表现出不同敏感性的理论解释
  3. 实验规模受限:只在两个模型和两个数据集上验证,泛化性有待加强
  4. 计算开销分析缺失:未提供详细的计算和通信开销分析

影响力

  1. 学术贡献:为联邦学习中的参数高效微调提供了新的研究思路
  2. 实用价值:在隐私保护的分布式大模型微调场景中具有应用潜力
  3. 可复现性:论文提供了详细的实验设置和参数配置

适用场景

该方法特别适用于:

  1. 数据隐私敏感的分布式大模型微调场景
  2. 数据异构性较强的联邦学习环境
  3. 需要平衡全局泛化和个性化的应用场景
  4. 计算资源受限但需要高效微调的环境

参考文献

论文引用了25篇相关文献,涵盖了LoRA、联邦学习、参数高效微调等关键领域的重要工作,为研究提供了坚实的理论基础。


总体评价:这是一篇在联邦学习和参数高效微调交叉领域的有价值工作。虽然性能提升相对有限,但其提出的细粒度分析视角和差异化优化策略为该领域提供了新的研究思路,具有一定的学术价值和实用潜力。