Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
- Papier-ID: 2507.10348
- Titel: Feature Distillation ist die bessere Wahl für modellheterogenes föderiertes Lernen
- Autoren: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
- Klassifizierung: cs.LG cs.AI
- Veröffentlichungszeit/Konferenz: 39. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS 2025)
- Papier-Link: https://arxiv.org/abs/2507.10348
Modellheterogenes föderiertes Lernen (Hetero-FL) hat große Aufmerksamkeit erlangt, da es heterogene Modellkenntnisse aggregieren kann, während die Datenprivatsphäre lokal erhalten bleibt. Um Kundenkenntnisse besser zu aggregieren, wird Ensemble-Destillation als weit verbreitete und wirksame Technik üblicherweise nach der globalen Aggregation verwendet, um die Leistung des globalen Modells zu verbessern. Allerdings führt die einfache Kombination von Hetero-FL und Ensemble-Destillation nicht immer zu guten Ergebnissen und kann sogar zu Instabilität im Trainingsprozess führen. Der Grund liegt darin, dass bestehende Methoden hauptsächlich auf Logit-Destillation angewiesen sind, die zwar durch Softmax-Vorhersagen modellunabhängig ist, aber die durch heterogene Modelle verursachten Wissensvariationen nicht ausgleichen kann. Um diese Herausforderung zu bewältigen, schlagen wir eine stabile und effiziente Feature-Destillationsmethode FedFD vor, die durch orthogonale Projektion ausgerichtete Merkmalsinformationen integriert und heterogene Modellkenntnisse besser aggregiert.
Das Kernproblem dieser Forschung besteht darin, wie man Kenntnisse aus Clientmodellen mit unterschiedlichen Architekturen im modellheterogenen föderiertem Lernen effektiv aggregiert. Das traditionelle föderierte Lernen setzt voraus, dass alle Clients die gleiche Modellarchitektur verwenden, aber in realen IoT-Umgebungen haben verschiedene Geräte unterschiedliche Rechenressourcen und Modelltrainingsfähigkeiten.
- Praktische Anforderungen: Die Heterogenität von IoT-Geräten macht eine einheitliche Modellarchitektur unrealistisch
- Ressourcenmaximierung: Notwendigkeit, verteilte Rechenressourcen vollständig zu nutzen
- Datenschutz: Wissensaustausch bei gleichzeitigem Schutz der Datenprivatsphäre
Durch t-SNE-Visualisierungsanalyse und empirische Experimente identifizierten die Autoren folgende Probleme bei bestehenden Logit-Destillationsmethoden:
- Verschwommene Darstellung: Aggregierte Logit-Darstellungen weisen verschwommene Klassifizierungsgrenzen auf
- Trainingsinstabilität: Trainingsoszillationen in heterogenen Modelleinstellungen
- Wissensvariationen: Unfähigkeit, Merkmalsraumunterschiede durch verschiedene Modellarchitekturen zu bewältigen
Basierend auf einer tiefgreifenden Analyse der Einschränkungen bestehender Methoden schlagen die Autoren vor, Feature-Destillation anstelle von Logit-Destillation zu verwenden und orthogonale Projektionstechniken zur Lösung von Abweichungsproblemen bei der Aggregation heterogener Modellkenntnisse einzusetzen.
- Tiefgreifende Analyse: Bietet eine umfassende Analyse der modellunabhängigen föderiertem Wissensdestillation und identifiziert die Einschränkungen bestehender Methoden, die hauptsächlich auf Logit-Destillation in heterogenen Modellen angewiesen sind
- Neuer Rahmen: Stellt das FedFD-Framework vor, ein Plug-and-Play-Personalisierungsmodul, das die Datenschutz- und Effizienzmerkmale traditioneller Destillationsmethoden beibehält
- Leistungsverbesserung: Umfangreiche Experimente auf mehreren Datensätzen und Einstellungen zeigen Verbesserungen der Testgenauigkeit um bis zu 16,09% gegenüber fortschrittlichen Methoden
Betrachten Sie ein föderiertes Lernproblem mit K Clients, wobei jeder Client k nur auf seinen lokalen privaten Datensatz Dk={xk(i),yk(i)} zugreifen kann. Das Ziel besteht darin, ein globales Modell w zu erlernen, das den Gesamtempirischen Verlust minimiert:
minwL(w)=∑k=1K∣D∣∣Dk∣Lk(w)
wobei Lk(w)=∣Dk∣1∑i=1∣Dk∣LCE(w;xki,yki)
FedFD gruppiert zunächst Clientmodelle nach Architektur. Für jede Destillationsstichprobe x wird die Merkmaldarstellung auf dem Extraktor wkd wie folgt dargestellt:
ekd=f(wkd;x),∀k∈[1,K]
Dann werden die Merkmale in m Gruppen {S1d,...,Smd} unterteilt, wobei jede Gruppe Extraktoren mit identischer Struktur enthält. Aggregieren Sie die Merkmaldarstellungen innerhalb jeder Gruppe:
ed=∣Sd∣1∑i=1∣Sd∣eid
Um Wissenskonflikte zu lösen, wird eine orthogonale Projektionstransformation verwendet. Durch die antisymmetrische Matrix Wd wird die Projektionsschicht Md erzeugt:
exp(Wd)⋅exp(Wd)T=exp(Wd+WdT)=exp(−WdT+WdT)=I
wobei:
exp(Wd)=I+Wd+2!Wd2+3!Wd3+⋯+n!Wdn
Verwenden Sie KL-Divergenz zur Ausrichtung von Merkmaldarstellungen:
minw,{M2,...,Mm}m−11∑i=2mKL(Mi(wx),ei)
- Von Logits zu Merkmalen: Erste systematische Analyse der Probleme der Logit-Destillation in heterogenen Modellen und Vorschlag von Feature-Destillation als Alternative
- Hierarchische Ausrichtungsstrategie: Reduzierung der Anzahl der Projektionsschichten durch Architekturgruppierung und Verbesserung der Trainingseffizienz
- Orthogonale Projektionstechnik: Verwendung antisymmetrischer Matrizen zur Erzeugung orthogonaler Projektionen, um Wissenskonflikte zu lösen und gleichzeitig die Recheneffizienz zu bewahren
- Modulares Design: Nahtlose Integration mit bestehenden FL-Techniken
- CIFAR-10: 10-Klassen-Bildklassifizierung, 50.000 Trainingsmuster, 10.000 Testmuster
- CIFAR-100: 100-Klassen-Bildklassifizierung, 50.000 Trainingsmuster, 10.000 Testmuster
- Tiny-ImageNet: 200-Klassen-Bildklassifizierung, größerer Datensatz
Verwendung der Dirichlet-Verteilung Dir(α) zur Simulation von Datenheterogenität, wobei kleinere α-Werte eine ungleichmäßigere Datenverteilung anzeigen.
- Testgenauigkeit: Klassifizierungsgenauigkeit des globalen Modells und lokaler Modelle
- Kommunikationseffizienz: Anzahl der Kommunikationsrunden, die erforderlich sind, um die Zielgenauigkeit zu erreichen
- Konvergenzbewertung: Analyse der Lernkurve des Trainingsprozesses
- Klassische FL-Methoden: HeteroFL, MOON-hetero
- Homogene FL-Methoden: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
- Heterogene FL-Methoden: FedMD, MSFKD, FedGD
- Lokale Trainingsrunden E=10, Kommunikationsrunden T=200, Anzahl der Clients K=20, Beteiligungsquote r=0,4
- Batch-Größe 64, Gewichtsabfall 1e-4
- Destillations-Lernrate 0,01, lokale Trainings-Lernrate 0,001
- Servermodell verwendet ResNet-18, Clientmodelle mit 10 verschiedenen Komplexitätsstufen
FedFD erreicht auf allen Datensätzen und Einstellungen die beste Leistung:
| Datensatz | α-Wert | HeteroFL | FedGD | FedFD | Verbesserung |
|---|
| CIFAR-10 | 1.0 | 87,53±0,15 | 87,22±0,13 | 89,64±0,23 | 2,11% |
| CIFAR-10 | 0.1 | 78,02±0,65 | 79,31±0,75 | 82,74±0,58 | 3,43% |
| CIFAR-100 | 1.0 | 57,42±0,12 | 58,03±0,26 | 60,86±0,10 | 2,83% |
| Tiny-ImageNet | 1.0 | 29,88±2,72 | 30,66±1,59 | 34,24±1,13 | 4,36% |
FedFD zeigt auch hervorragende Leistung bei der Kommunikationseffizienz:
- CIFAR-10 erreicht 80% Genauigkeit: FedFD benötigt 20 Runden, HeteroFL benötigt 25 Runden
- CIFAR-100 erreicht 60% Genauigkeit: FedFD benötigt 60 Runden, andere Methoden benötigen 171-200+ Runden
Überprüfung der Wichtigkeit jeder Komponente:
- Entfernung der Merkmalsausrichtung: Leistungsabfall von 0,63-1,56%
- Entfernung der orthogonalen Projektion: Leistungsabfall von 1,68-2,43%
- Entfernung beider Komponenten: Signifikanter Leistungsabfall, Rückkehr zum FedFusion-Niveau
Durch Vergleich der Lernkurven festgestellt:
- Homogene Modelle: Alle Logit-Destillationsmethoden konvergieren schnell und stabil
- Heterogene Modelle: Logit-Destillationsmethoden zeigen Trainingsoszillationen, während FedFD stabile Konvergenz beibehält
Unter extremeren Datenheterogenitätseinstellungen (α=0,01) und verschiedenen Modellarchitekturkombinationen behält FedFD weiterhin optimale Leistung.
Entwicklung von der homogenen Modellenaggregation von FedAvg zu Methoden, die heterogene Modelle unterstützen, wie HeteroFL durch teilweise Parametersaggregation und NeFL durch verschachtelte Strukturen für unterschiedliche Tiefen.
Umfasst zwei Hauptkategorien: Logit-Destillation und Feature-Destillation. Dieser Artikel konzentriert sich auf die Anwendung von Feature-Destillation im föderiertem Lernen und durchbricht bestehende Grenzen durch orthogonale Projektion und Ensemble-Destillation.
Bestehende Methoden verlassen sich hauptsächlich auf Logit-Destillation oder erfordern zusätzliche Proxy-Datensätze. Dieser Artikel analysiert die Einschränkungen dieser Methoden in heterogenen Modelleinstellungen.
- Problemberkennung: Logit-Destillation weist Wissensvariationen und Trainingsinstabilität in heterogenen Modellen auf
- Lösungsansatz: Feature-Destillation in Kombination mit orthogonaler Projektion kann Probleme bei der Aggregation heterogener Modellkenntnisse effektiv lösen
- Leistungsvalidierung: FedFD erreicht unter verschiedenen Einstellungen signifikante Leistungsverbesserungen
- Rechenaufwand: Notwendigkeit, Projektionsschichten für verschiedene Architekturen zu verwalten, erhöht die Rechenkosten auf der Serverseite
- Architekturabhängigkeit: Die Methodenleistung kann vom Grad der Vielfalt der Client-Modellarchitekturen abhängen
- Destillationsdaten: Benötigt weiterhin einen Hilfsdatensatz für die Destillation, kann aber mit datenfreien Methoden kombiniert werden
- Erforschung vollständig datenfreier Feature-Destillationsmethoden
- Untersuchung effizienterer Projektionsschicht-Designs
- Erweiterung auf weitere Modalitäten und Aufgabentypen
- Tiefgreifende Problemeinsicht: Klare Identifizierung der Grundprobleme bestehender Methoden durch Visualisierung und empirische Analyse
- Vernünftiges Methodendesign: Die Verwendung der orthogonalen Projektionstechnik löst Wissenskonflikte und bewahrt gleichzeitig Recheneffizienz
- Umfassende und ausreichende Experimente: Abdeckung mehrerer Datensätze, unterschiedlicher Heterogenitätsgrade, Ablationsstudien usw.
- Starke technische Praktikabilität: Das modulare Design ermöglicht eine einfache Integration in bestehende FL-Frameworks
- Unzureichende theoretische Analyse: Fehlende theoretische Erklärung, warum Feature-Destillation Logit-Destillation überlegen ist
- Analyse der Rechenkomplexität: Keine detaillierte Analyse des Rechenaufwands der orthogonalen Projektion
- Begrenzte großflächige Validierung: Experimente konzentrieren sich hauptsächlich auf mittlere Datensätze
- Akademischer Wert: Bietet einen neuen technischen Weg für heterogenes föderiertes Lernen
- Praktischer Wert: Kann direkt auf reale IoT-Szenarien angewendet werden
- Inspirationswert: Bietet neue Perspektiven für die Forschung zur Wissensdestillation im föderiertem Lernen
- Föderiertes Lernen mit IoT-Geräten: Zusammenarbeit von Geräten mit unterschiedlichen Rechenkapazitäten beim Modelltraining
- Organisationsübergreifende Zusammenarbeit: Wissensaustausch, wenn verschiedene Organisationen unterschiedliche Modellarchitekturen verwenden
- Edge-Computing: Verteiltes Lernen in ressourcenbeschränkten Umgebungen
Dieser Artikel zitiert wichtige Arbeiten in den Bereichen föderiertes Lernen, Wissensdestillation und föderierte Destillation, einschließlich:
- FedAvg 34: Grundlegende Arbeit zum föderiertem Lernen
- HeteroFL 6: Repräsentative Methode für heterogenes föderiertes Lernen
- Arbeiten zur Wissensdestillation 14, 15, 44: Bieten theoretische Grundlagen für diesen Artikel
- Föderierte Destillationsmethoden 33, 49, 58: Direkte Vergleichsbenchmarks für diesen Artikel
Dieses Papier stellt eine wichtige Innovation im Bereich des modellheterogenen föderiertem Lernens dar. Durch tiefgreifende Analyse der Einschränkungen bestehender Methoden und Vorschlag einer wirksamen Lösung leistet es einen wertvollen Beitrag zur Entwicklung dieses Feldes. Das modulare Design der Methode und die hervorragenden experimentellen Ergebnisse verleihen ihr starken praktischen Wert.