2025-11-25T14:25:18.089963

FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios

Zhao, Zhu, Zhang et al.
Federated efficient fine-tuning has emerged as an approach that leverages distributed data and computational resources across nodes to address the challenges of large-scale fine-tuning and privacy preservation. The Low-Rank Adaptation (LoRA) enables efficient fine-tuning of large-scale pre-trained models by introducing trainable low-rank matrices into weight updates.However, in heterogeneous data scenarios, client drift weakens the generalization of the global model, and local models often fail to meet the personalized needs of individual clients.Moreover, existing federated LoRA efficient fine-tuning techniques overlook fine-grained analysis of the tuning matrices. To address this, we conducted preliminary experiments and found that different LoRA matrices exhibit different sensitivity to changes in the direction and magnitude of their vectors.We thus propose a fine-grained federated LoRA tuning method. By fine-tuning the more sensitive directional vectors in the A matrix, which encode shared knowledge, our method learns shared features more effectively across clients and enhances global generalization. Simultaneously, by fine-tuning the more sensitive magnitude vectors in the B matrix, which encode personalized knowledge, our method better captures personalized knowledge, enabling detailed adaptation to local data. The method uses a pipeline combining global and local optimizers. Global optimization further improves local models, achieving collaborative optimization between global and local levels. This improves both the generalization ability of the global model and the personalized adaptation of local models under heterogeneous data scenarios. Experiments on Databricks-Dolly-15k and Natural Instructions with LLaMA2-7B and Deepseek-7B confirm that our method improves global performance by 0.39% and local performance by 0.59%.
academic

FedLoRA-Optimizer: Föderiertes LoRA-Feintuning mit globaler und lokaler Optimierung in heterogenen Datenszenarien

Grundlegende Informationen

  • Papier-ID: 2510.11274
  • Titel: FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios
  • Autoren: Jianzhe Zhao, Hailin Zhu, Yu Zhang, Ziqi Chen, Guibing Guo (Northeastern University)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11274

Zusammenfassung

Föderiertes effizientes Feintuning als Methode zur Nutzung verteilter Daten und Rechenressourcen über Knoten hinweg adressiert die Herausforderungen des großflächigen Feintunings und des Datenschutzes. Low-Rank Adaptation (LoRA) ermöglicht effizientes Feintuning großer vortrainierter Modelle durch die Einführung trainierbarer Matrizen mit niedriger Rang in Gewichtsaktualisierungen. Jedoch schwächt Client-Drift unter heterogenen Datenszenarien die Verallgemeinerungsfähigkeit des globalen Modells, während lokale Modelle häufig die Personalisierungsanforderungen einzelner Clients nicht erfüllen. Darüber hinaus vernachlässigen bestehende föderierte LoRA-Effizienztuning-Techniken eine feinkörnige Analyse der Tuning-Matrizen. Zu diesem Zweck führten die Autoren vorläufige Experimente durch und entdeckten, dass verschiedene LoRA-Matrizen unterschiedliche Empfindlichkeiten gegenüber Richtungs- und Amplitudenänderungen ihrer Vektoren aufweisen. Basierend auf dieser Erkenntnis wird eine feinkörnige föderierte LoRA-Tuning-Methode vorgeschlagen, die durch Tuning empfindlicherer Richtungsvektoren in der A-Matrix, die gemeinsames Wissen kodieren, gemeinsame Merkmale über Clients hinweg effektiver lernt und die globale Verallgemeinerungsfähigkeit verbessert. Gleichzeitig werden empfindlichere Amplitudenvektoren in der B-Matrix, die personalisiertes Wissen kodieren, abgestimmt, um personalisiertes Wissen besser zu erfassen. Die Methode nutzt eine Pipeline-Architektur, die globale und lokale Optimierer kombiniert, um unter heterogenen Datenszenarien sowohl die Verallgemeinerungsfähigkeit des globalen Modells als auch die Personalisierungsadaptivität des lokalen Modells zu verbessern.

Forschungshintergrund und Motivation

Forschungsfragen

Die Kernprobleme, die dieses Papier adressiert, sind die Ineffizienz des föderiert LoRA-Feintunings in heterogenen Datenumgebungen, insbesondere:

  1. Client-Drift-Problem: In föderierter Lernumgebung mit Dateninhomogenität führt die Verteilungsdifferenz zwischen Clients zu verminderter Verallgemeinerungsfähigkeit des globalen Modells
  2. Unzureichende Personalisierung: Lokale Modelle erfüllen die Personalisierungsanforderungen einzelner Clients nicht angemessen
  3. Mangel an feinkörniger Analyse: Bestehende Methoden vernachlässigen eine verfeinerte Analyse der LoRA-Tuning-Matrizen

Bedeutung des Problems

Mit der weit verbreiteten Anwendung großer vortrainierter Modelle wird effizientes verteiltes Feintuning unter Wahrung des Datenschutzes zu einer Schlüsselherausforderung. Föderiertes Lernen bietet eine Lösungsmöglichkeit, steht aber unter Dateninhomogenität vor Leistungsabbauproblemen, die die Effektivität großer Modelle in praktischen Anwendungen direkt beeinflussen.

Einschränkungen bestehender Methoden

  1. Traditionelle föderierte Lernmethoden: Wie FedAvg zeigen unter Dateninhomogenität Konvergenzschwierigkeiten und Genauigkeitsverluste
  2. Bestehende föderierte LoRA-Methoden: Konzentrieren sich hauptsächlich auf Modellarchitekturdesign und vernachlässigen feinkörnige Analyse von Tuning-Matrix-Änderungen
  3. Parametereffizienz-Methoden: Obwohl sie Kommunikationskosten reduzieren, bleibt das Gleichgewicht zwischen globaler Verallgemeinerung und Personalisierungsadaptation unter heterogenen Bedingungen schwierig

Forschungsmotivation

Die Autoren entdeckten durch Experimente, dass die A- und B-Matrizen von LoRA unterschiedliche Empfindlichkeitsmuster bei Richtungs- und Amplitudenänderungen aufweisen, was eine theoretische Grundlage für die Gestaltung gezielter Optimierungsstrategien bietet.

Kernbeiträge

  1. Feinkörnige empirische Analyse: Erste feinkörnige Analyse von Richtungs- und Amplitudenänderungen in LoRA-Tuning-Matrizen, die zeigt, dass Richtungsänderungen in der A-Matrix etwa 1,7-mal größer sind als in der B-Matrix, während Amplitudenänderungen in der B-Matrix etwa 41-mal größer sind als in der A-Matrix
  2. Feinkörnige föderierte Tuning-Methode für heterogene Daten: Vorschlag einer Methode, die hochempfindliche Richtungsvektoren in der A-Matrix und hochempfindliche Amplitudenvektoren in der B-Matrix separat optimiert, was die Verallgemeinerungsfähigkeit des globalen Modells und die Adaptivität des lokalen Modells erheblich verbessert
  3. Kooperative globale-lokale Optimierungsarchitektur: Design einer Pipeline-Architektur, die globale und lokale Optimierer kombiniert, um kooperative Optimierung auf globaler und lokaler Ebene zu erreichen
  4. Experimentelle Validierung: Validierung auf LLaMA2-7B und Deepseek-7B Modellen mit Databricks-Dolly-15k und Natural Instructions Datensätzen, mit Verbesserungen der globalen Task-Genauigkeit um etwa 0,39% und lokaler Tasks um etwa 0,59%

Methodische Details

Aufgabendefinition

Dieses Papier untersucht die effiziente Feinabstimmung großer Sprachmodelle in föderierter Lernumgebung. Gegeben N Clients, wobei jeder Client i einen lokalen Datensatz Di besitzt, besteht das Ziel darin, ein Modell zu trainieren, das ohne Austausch von Rohdaten sowohl gute globale Verallgemeinerungsfähigkeit als auch Erfüllung der Personalisierungsanforderungen einzelner Clients bietet.

Schlüsselbeobachtungen und Erkenntnisse

Durch experimentelle Analyse auf dem LLaMA2-7B Modell entdeckten die Autoren zwei wichtige Beobachtungen:

Beobachtung 1: Richtungsänderungen in der A-Matrix sind etwa 1,7-mal größer als in der B-Matrix

  • Die A-Matrix kodiert hauptsächlich aufgabenübergreifendes gemeinsames Wissen und fungiert als "grundlegendes Gerüst" des globalen Wissens
  • Richtungsvektoränderungen beeinflussen direkt die Trainingsleistung globaler Tasks

Beobachtung 2: Amplitudenänderungen in der B-Matrix sind etwa 41-mal größer als in der A-Matrix

  • Die B-Matrix kodiert hauptsächlich aufgabenspezifische personalisierte Informationen
  • Amplitudenvektoränderungen spielen eine Schlüsselrolle bei der Trainingseffektivität von Downstream-Tasks

Modellarchitektur

Matrixzerlegungsstrategie

Inspiriert von DoRA wird die LoRA-Matrix in Richtungs- und Amplitudenkomponenten zerlegt:

A = AM · AD, B = BM · BD

wobei AM, BM Amplitudenvektoren darstellen und AD, BD Richtungsvektoren darstellen.

Globaler Optimierer

Ziel: Verbesserung der Verallgemeinerungsfähigkeit des globalen Modells
Strategie: Fokussierte Anpassung der Richtungsvektoren der A-Matrix

Föderierte Aggregationsformel:

ĀD = (1/N) ∑(i=1 bis N) AD,i
ĀM = (1/N) ∑(i=1 bis N) AM,i  
B̄M = (1/N) ∑(i=1 bis N) BM,i
B̄D = (1/N) ∑(i=1 bis N) BD,i

Globale Modellaktualisierung:

Wg = W0 + B̄M · B̄D · ĀM · (ĀD + ΔAD,g)

Lokaler Optimierer

Ziel: Verbesserung der Personalisierungsmodellleistung
Strategie: Fokussierte Anpassung der Amplitudenvektoren der B-Matrix

Lokale Modellaktualisierung:

Wl = Wg + (B̄'M + ΔB'M,l) · B̄'D · Ā'M · Ā'D

Lokale Verlustfunktion:

Llocal = Ltask(Wlx,y) + (λ/2)||ΔMl||²F

Gradient-Aktualisierungsformel:

∇ΔMlocalLlocal = B̄'D · Ā'M · Ā'D · ∇ypredLtask + λ · ΔMlocal

Technische Innovationen

  1. Empfindlichkeitsbasierte differenzierte Optimierung: Anwendung gezielter Optimierungsstrategien basierend auf unterschiedlichen Empfindlichkeiten der A- und B-Matrizen gegenüber Richtungs- und Amplitudenänderungen
  2. Pipeline-Architektur-Design: Der globale Optimierer trainiert zunächst das globale Modell, dann führt der lokale Optimierer personalisierte Feinabstimmung durch
  3. Feinkörnige Parameterkontrolle: Separate Kontrolle der Aktualisierungen von Richtungs- und Amplitudenvektoren für präzisere Parameterabstimmung

Experimentelle Einrichtung

Datensätze

  • Databricks-Dolly-15k: Instruktions-Feintuning-Datensatz mit mehreren Downstream-Tasks
  • Natural Instructions: Natürlicher Instruktions-Datensatz
  • Task-Typen: Drei repräsentative Tasks zur Simulation heterogener Umgebung
    • Kausale Schlussfolgerung (Causal)
    • Frage-Antwort (QA)
    • Informationsextraktion (IE)
  • Datenaufteilung: 80% Trainingssatz, 20% Testsatz

Bewertungsmetriken

  • Genauigkeit (Accuracy): Gemessen durch semantische Ähnlichkeit zwischen Modellausgabe und Zielresponse
  • Globale Leistung: Leistung auf allen Task-Kombinationen (ALL)
  • Lokale Leistung: Leistung auf spezifischen einzelnen Tasks

Vergleichsmethoden

  • LoRA: Standard-LoRA-Algorithmus, trainiert nur Adapter-Parameter
  • Prompt Tuning: Leichte Feintuning-Technik basierend auf Prompts
  • Adapt Tuning: Alternative parametereffizienzbasierte Feintuning-Methode

Implementierungsdetails

  • Modelle: LLaMA2-7B, DeepSeek-7B
  • LoRA-Parameter: rank=8, scaling factor=32, dropout=0.1
  • Anwendungsschichten: Nur auf Q- und V-Unterschichten der Self-Attention angewendet
  • Hardware: A800 Linux-Server, 100GB RAM, 14-Kern Intel Xeon Gold 6348 CPU

Experimentelle Ergebnisse

Hauptergebnisse

LLaMA2-7B Ergebnisse

Natural Instructions Datensatz:

  • PH-Task: 11,62% vs LoRA 11,46%
  • QA-Task: 66,69% vs LoRA 61,69%
  • IE-Task: 21,18% vs LoRA 22,85%
  • ALL-Task: 32,44% vs LoRA 33,04%
  • Gesamtgenauigkeitsverbesserung 0,73%

Databricks-Dolly-15k Datensatz:

  • Causal-Task: 18,99% vs LoRA 18,59%
  • QA-Task: 40,57% vs LoRA 40,48%
  • IE-Task: 27,91% vs LoRA 25,91%
  • ALL-Task: 26,20% vs LoRA 25,70%
  • Gesamtgenauigkeitsverbesserung 0,75%

DeepSeek-7B Ergebnisse

Natural Instructions Datensatz:

  • Gesamtverbesserung 1,11%, von 6,00% auf 6,44%

Databricks-Dolly-15k Datensatz:

  • Gesamtverbesserung 0,53%, von 18,90% auf 20,10%

Parameteranalyse

Durch Analyse verschiedener Rank-Einstellungen wurde festgestellt, dass das Modell bei r=8, n=2 optimale Leistung erreicht, mit einer Genauigkeit von 18,59% bei der Kausalschlussfolgerungs-Task.

Ablationsstudien

Validierung der Pipeline-Struktur-Effektivität:

  • Vergleich der Pipeline-Struktur "globale Optimierung + lokale Optimierung" mit Methoden, die nur lokale Optimierung verwenden
  • Experimentelle Ergebnisse zeigen, dass der Pipeline-Modus auf allen drei Tasks (Causal, IE, QA) dem Nicht-Pipeline-Modus überlegen ist
  • Bestätigt die Effektivität der schrittweisen Trainingstrategie

Experimentelle Erkenntnisse

  1. Unterschiedliche Empfindlichkeit von Richtung vs. Amplitude wird validiert: Richtungsänderungen in der A-Matrix sind tatsächlich etwa 1,7-mal größer als in der B-Matrix, Amplitudenänderungen in der B-Matrix etwa 41-mal größer als in der A-Matrix
  2. Notwendigkeit der Pipeline-Architektur: Globale Optimierung gefolgt von lokaler Optimierung ist besser als direkte lokale Optimierung
  3. Wichtigkeit der Parametereinstellung: Angemessene Rank-Einstellung hat signifikanten Einfluss auf die Leistung

Verwandte Arbeiten

Parametereffizienz-Feintuning

  • Adapters: Einfügen kleiner trainierbarer Module in Transformer-Schichten
  • LoRA: Zerlegung von Gewichtsmatrizen in Komponenten mit niedriger Rang, Aktualisierung nur von Bypass-Modulen
  • DoRA: Weitere Zerlegung von LoRA-Matrizen in "Amplitude + Richtung"
  • Prompt Tuning: Anleitung des Modells durch sorgfältig gestaltete Textprompts

Föderiertes Lernen

  • FedAvg: Globale Optimierung durch Mittelung von Aktualisierungen, zeigt aber unter Dateninhomogenität schlechte Leistung
  • FedProx: Hinzufügen von Proximal-Termen zur Einschränkung lokaler Aktualisierungsabweichungen
  • SCAFFOLD: Verwendung von Kontrollvariablen zur Korrektur von "Client-Drift"
  • Personalisiertes föderiertes Lernen: Konstruktion kundenspezifischer Client-Modelle

Parametereffizienz-föderiertes Feintuning

  • FFA-LoRA: Fixierung einer Niedrig-Rang-Matrix während Feintuning der anderen zur Stabilitätsverbesserung
  • Nullter-Ordnung-Optimierungsmethoden: Realisierung föderierter Feinabstimmung großer Modelle durch gemeinsame Zufallssamen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wert der feinkörnigen Analyse: Feinkörnige Analyse von Richtungs- und Amplitudenänderungen in LoRA-Matrizen offenbart wichtige Empfindlichkeitsdifferenzmuster
  2. Effektivität differenzierter Optimierungsstrategien: Differenzierte Optimierungsstrategien für Richtungsvektoren der A-Matrix und Amplitudenvektoren der B-Matrix können gleichzeitig globale Verallgemeinerung und lokale Personalisierung verbessern
  3. Vorteile der Pipeline-Architektur: Kooperative globale-lokale Optimierung ist effektiver als reine lokale Optimierung

Einschränkungen

  1. Begrenzte Leistungsverbesserung: Obwohl die Methode effektiv ist, ist die Gesamtleistungsverbesserung relativ begrenzt (0,39%-0,59%)
  2. Rechenkomplexität: Die Pipeline-Architektur erhöht die Rechenkomplexität des Trainings
  3. Anwendungsbereich: Hauptsächlich auf großen Sprachmodellen validiert, Verallgemeinerbarkeit auf andere Modelltypen bedarf weiterer Überprüfung
  4. Abhängigkeit vom Heterogenitätsgrad: Die Methodeneffektivität kann vom Grad der Datenheterogenität abhängen

Zukünftige Richtungen

Die Autoren schlagen vor, zukünftig Optimierungsstrategien zur Verbesserung der Modellierungsadaptivität und Feintuning-Effizienz in heterogenen Umgebungen zu erkunden, einschließlich:

  1. Weitere Optimierung des globalen-lokalen Kooperationsmechanismus
  2. Erkundung effizienterer Parameterzerlegungs- und Aggregationsstrategien
  3. Erweiterung auf mehr Modelltypen und Tasks

Tiefgehende Bewertung

Stärken

  1. Innovative theoretische Einsichten: Erste feinkörnige Analyse der Empfindlichkeitsdifferenzen von LoRA-Matrizen, die theoretische Grundlage für Optimierungsstrategien bietet
  2. Vernünftiges Methodendesign: Differenzierte Optimierungsstrategien basierend auf empirischen Beobachtungen haben starke Rationalität
  3. Vollständiges Experimentdesign: Umfasst ausreichende Vergleichsexperimente, Parameteranalyse und Ablationsstudien
  4. Klare Problemdefinition: Genaue Identifikation von Schlüsselherausforderungen im föderiert LoRA-Feintuning

Mängel

  1. Begrenzte Leistungsverbesserung: Relative zur Methodenkomplexität ist die Leistungsverbesserung relativ klein
  2. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum A- und B-Matrizen unterschiedliche Empfindlichkeitsmuster aufweisen
  3. Begrenzte Experimentskala: Validierung nur auf zwei Modellen und zwei Datensätzen, Verallgemeinerbarkeit bedarf Stärkung
  4. Fehlende Rechenaufwand-Analyse: Keine detaillierte Analyse von Rechen- und Kommunikationskosten

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Forschungsperspektiven für parametereffizienzbasiertes Feintuning im föderiert Lernen
  2. Praktischer Wert: Hat Anwendungspotenzial in Datenschutz-sensitiven verteilten Großmodell-Feintuning-Szenarien
  3. Reproduzierbarkeit: Papier bietet detaillierte experimentelle Einrichtung und Parameterkonfiguration

Anwendungsszenarien

Diese Methode ist besonders geeignet für:

  1. Datenschutz-sensitive verteilte Großmodell-Feintuning-Szenarien
  2. Stark heterogene Daten in föderierter Lernumgebung
  3. Notwendigkeit zum Ausgleich zwischen globaler Verallgemeinerung und Personalisierung
  4. Begrenzte Rechenressourcen aber Bedarf an effizientem Feintuning

Literaturverzeichnis

Das Papier zitiert 25 verwandte Arbeiten, die wichtige Arbeiten in Schlüsselbereichen wie LoRA, föderiertes Lernen und parametereffizienzbasiertes Feintuning abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dies ist eine wertvolle Arbeit im Schnittstellenbereich föderiertes Lernen und parametereffizienzbasiertes Feintuning. Obwohl die Leistungsverbesserung relativ begrenzt ist, bietet die vorgeschlagene feinkörnige Analyseperspektive und differenzierte Optimierungsstrategie neue Forschungsrichtungen für diesen Bereich und hat gewissen akademischen Wert und praktisches Potenzial.