2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.
Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
academic

La Distillation de Caractéristiques est le Meilleur Choix pour l'Apprentissage Fédéré Hétérogène en Modèles

Informations Fondamentales

  • ID de l'article: 2507.10348
  • Titre: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
  • Auteurs: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
  • Classification: cs.LG cs.AI
  • Date de publication/Conférence: 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article: https://arxiv.org/abs/2507.10348

Résumé

L'apprentissage fédéré hétérogène en modèles (Hetero-FL) a suscité un intérêt considérable en raison de sa capacité à agréger les connaissances de modèles hétérogènes tout en préservant la confidentialité des données locales. Pour mieux agréger les connaissances des clients, la distillation d'ensemble, en tant que technique largement utilisée et efficace, est généralement appliquée après l'agrégation globale pour améliorer les performances du modèle global. Cependant, la simple combinaison de Hetero-FL et de la distillation d'ensemble ne produit pas toujours de bons résultats et peut même entraîner une instabilité du processus d'entraînement. La raison en est que les méthodes existantes s'appuient principalement sur la distillation logit, qui, bien qu'indépendante du modèle via les prédictions softmax, ne peut pas compenser les biais de connaissances produits par les modèles hétérogènes. Pour relever ce défi, cet article propose FedFD, une méthode de distillation de caractéristiques stable et efficace, qui intègre les informations de caractéristiques alignées par projection orthogonale pour mieux agréger les connaissances des modèles hétérogènes.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est comment agréger efficacement les connaissances provenant de modèles clients d'architectures différentes dans l'apprentissage fédéré hétérogène en modèles. L'apprentissage fédéré traditionnel suppose que tous les clients utilisent la même architecture de modèle, mais dans les environnements IoT réels, les différents appareils possèdent des ressources de calcul et des capacités d'entraînement de modèles différentes.

Importance du Problème

  1. Besoins pratiques: L'hétérogénéité des appareils IoT rend irréaliste une architecture de modèle unifiée
  2. Maximisation des ressources: Nécessité d'utiliser pleinement les ressources informatiques distribuées
  3. Protection de la vie privée: Partage des connaissances tout en protégeant la confidentialité des données

Limitations des Méthodes Existantes

Par le biais d'une analyse de visualisation t-SNE et d'expériences empiriques, les auteurs découvrent que les méthodes existantes basées sur la distillation logit présentent les problèmes suivants:

  1. Représentation ambiguë: Les représentations logit agrégées présentent des frontières de classification ambiguës
  2. Instabilité d'entraînement: Oscillations d'entraînement dans les paramètres de modèles hétérogènes
  3. Biais de connaissances: Incapacité à gérer les différences d'espaces de caractéristiques causées par différentes architectures de modèles

Motivation de la Recherche

Basée sur une analyse approfondie des limitations des méthodes existantes, les auteurs proposent d'utiliser la distillation de caractéristiques à la place de la distillation logit, en résolvant les problèmes de biais dans l'agrégation des connaissances de modèles hétérogènes grâce à la technique de projection orthogonale.

Contributions Principales

  1. Analyse approfondie: Fournit une analyse approfondie de la distillation des connaissances fédérées indépendante du modèle, identifiant les limitations des méthodes existantes qui s'appuient principalement sur la distillation logit dans les paramètres de modèles hétérogènes
  2. Proposition d'un nouveau cadre: Propose le cadre FedFD, un module d'amélioration personnalisée enfichable qui hérite des propriétés de protection de la vie privée et d'efficacité des méthodes de distillation traditionnelles
  3. Amélioration des performances: Expériences approfondies sur plusieurs ensembles de données et paramètres, avec une amélioration de la précision des tests jusqu'à 16,09% par rapport aux méthodes de pointe

Détails de la Méthode

Définition de la Tâche

Considérez un problème d'apprentissage fédéré avec K clients, où chaque client k n'a accès qu'à son ensemble de données privées locales Dk={xk(i),yk(i)}D_k = \{x_k^{(i)}, y_k^{(i)}\}. L'objectif est d'apprendre un modèle global w qui minimise la perte empirique globale:

minwL(w)=k=1KDkDLk(w)\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)

Lk(w)=1Dki=1DkLCE(w;xki,yki)L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)

Architecture du Modèle

1. Alignement Hiérarchique des Caractéristiques

FedFD regroupe d'abord les modèles clients par architecture. Pour chaque échantillon de distillation x, sa représentation de caractéristiques sur l'extracteur wkdw_k^d est: ekd=f(wkd;x),k[1,K]e_k^d = f(w_k^d; x), \forall k \in [1,K]

Les caractéristiques sont ensuite divisées en m groupes {S1d,...,Smd}\{S_1^d, ..., S_m^d\}, chaque groupe contenant des extracteurs de structure identique. Les représentations de caractéristiques au sein du même groupe sont agrégées: ed=1Sdi=1Sdeide^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d

2. Technique de Projection Orthogonale

Pour résoudre le problème de conflit de connaissances, une transformation par projection orthogonale est utilisée. Une couche de projection MdM_d est générée via une matrice antisymétrique WdW_d: exp(Wd)exp(Wd)T=exp(Wd+WdT)=exp(WdT+WdT)=I\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I

où: exp(Wd)=I+Wd+Wd22!+Wd33!++Wdnn!\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}

3. Perte de Distillation de Caractéristiques

La divergence KL est utilisée pour aligner les représentations de caractéristiques: minw,{M2,...,Mm}1m1i=2mKL(Mi(wx),ei)\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)

Points d'Innovation Technique

  1. De logit à caractéristiques: Première analyse systématique des problèmes de la distillation logit dans les modèles hétérogènes, proposant la distillation de caractéristiques comme alternative
  2. Stratégie d'alignement hiérarchique: Réduction du nombre de couches de projection par regroupement d'architectures, améliorant l'efficacité d'entraînement
  3. Technique de projection orthogonale: Utilisation de matrices antisymétriques pour générer des projections orthogonales, résolvant les conflits de connaissances tout en maintenant l'efficacité computationnelle
  4. Conception modulaire: Intégration transparente avec les technologies FL existantes

Configuration Expérimentale

Ensembles de Données

  • CIFAR-10: Classification d'images à 10 classes, 50 000 échantillons d'entraînement, 10 000 échantillons de test
  • CIFAR-100: Classification d'images à 100 classes, 50 000 échantillons d'entraînement, 10 000 échantillons de test
  • Tiny-ImageNet: Classification d'images à 200 classes, ensemble de données de plus grande taille

La distribution de Dirichlet Dir(α) est utilisée pour simuler l'hétérogénéité des données, les valeurs α plus petites indiquant une distribution de données plus inégale.

Métriques d'Évaluation

  • Précision des tests: Précision de classification du modèle global et des modèles locaux
  • Efficacité de communication: Nombre de tours de communication nécessaires pour atteindre la précision cible
  • Stabilité de convergence: Analyse des courbes d'apprentissage du processus d'entraînement

Méthodes de Comparaison

  1. Méthodes FL classiques: HeteroFL, MOON-hetero
  2. Méthodes FL homogènes: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
  3. Méthodes FL hétérogènes: FedMD, MSFKD, FedGD

Détails d'Implémentation

  • Nombre de tours d'entraînement local E=10, tours de communication T=200, nombre de clients K=20, taux de participation r=0,4
  • Taille de lot 64, décroissance des poids 1e-4
  • Taux d'apprentissage de distillation 0,01, taux d'apprentissage d'entraînement local 0,001
  • Modèle serveur utilisant ResNet-18, modèles clients avec 10 niveaux de complexité différents

Résultats Expérimentaux

Résultats Principaux

FedFD atteint les meilleures performances sur tous les ensembles de données et paramètres:

Ensemble de DonnéesValeur αHeteroFLFedGDFedFDAmélioration
CIFAR-101.087.53±0.1587.22±0.1389.64±0.232.11%
CIFAR-100.178.02±0.6579.31±0.7582.74±0.583.43%
CIFAR-1001.057.42±0.1258.03±0.2660.86±0.102.83%
Tiny-ImageNet1.029.88±2.7230.66±1.5934.24±1.134.36%

Efficacité de Communication

FedFD montre également d'excellentes performances en termes d'efficacité de communication:

  • CIFAR-10 atteindre 80% de précision: FedFD nécessite 20 tours, HeteroFL nécessite 25 tours
  • CIFAR-100 atteindre 60% de précision: FedFD nécessite 60 tours, les autres méthodes nécessitent 171-200+ tours

Études d'Ablation

Vérification de l'importance de chaque composant:

  • Suppression de l'alignement des caractéristiques: baisse de performance de 0,63-1,56%
  • Suppression de la projection orthogonale: baisse de performance de 1,68-2,43%
  • Suppression des deux composants: baisse significative de performance, retour au niveau de FedFusion

Analyse de Stabilité

Par comparaison des courbes d'apprentissage:

  • Modèles homogènes: toutes les méthodes de distillation logit convergent rapidement et de manière stable
  • Modèles hétérogènes: les méthodes de distillation logit présentent des oscillations d'entraînement, tandis que FedFD maintient une convergence stable

Expériences d'Extensibilité

Dans des paramètres d'hétérogénéité de données plus extrêmes (α=0,01) et différentes combinaisons d'architectures de modèles, FedFD maintient toujours les meilleures performances.

Travaux Connexes

Apprentissage Fédéré

Évolution de l'agrégation de modèles homogènes de FedAvg vers des méthodes supportant les modèles hétérogènes, telles que HeteroFL par agrégation de paramètres partiels, NeFL par structures imbriquées adaptées à différentes profondeurs.

Distillation de Connaissances

Deux grandes catégories: distillation logit et distillation de caractéristiques. Cet article se concentre sur l'application de la distillation de caractéristiques dans l'apprentissage fédéré, dépassant les limitations existantes par projection orthogonale et distillation d'ensemble.

Distillation Fédérée

Les méthodes existantes s'appuient principalement sur la distillation logit ou nécessitent des ensembles de données proxy supplémentaires. Cet article analyse les limitations de ces méthodes dans les paramètres de modèles hétérogènes.

Conclusions et Discussion

Conclusions Principales

  1. Identification du problème: La distillation logit présente des biais de connaissances et des problèmes d'instabilité d'entraînement dans les modèles hétérogènes
  2. Solution proposée: La distillation de caractéristiques associée à la projection orthogonale peut efficacement résoudre les problèmes d'agrégation des connaissances de modèles hétérogènes
  3. Vérification des performances: FedFD a obtenu des améliorations significatives des performances dans diverses configurations

Limitations

  1. Surcharge computationnelle: Nécessité de maintenir des couches de projection pour différentes architectures, augmentant les coûts computationnels côté serveur
  2. Dépendance architecturale: L'efficacité de la méthode peut dépendre du degré de diversité des architectures de modèles clients
  3. Données de distillation: Nécessite toujours un ensemble de données auxiliaire pour la distillation, bien que pouvant être combinée avec des méthodes sans données

Directions Futures

  1. Exploration de méthodes de distillation de caractéristiques complètement sans données
  2. Recherche de conceptions de couches de projection plus efficaces
  3. Extension à plus de modalités et de types de tâches

Évaluation Approfondie

Avantages

  1. Intuition profonde du problème: Identification claire des problèmes fondamentaux des méthodes existantes par visualisation et analyse empirique
  2. Conception de méthode raisonnée: L'utilisation de la technique de projection orthogonale résout à la fois les conflits de connaissances et maintient l'efficacité computationnelle
  3. Expériences complètes et suffisantes: Couvrant plusieurs ensembles de données, différents degrés d'hétérogénéité, études d'ablation, etc.
  4. Forte applicabilité pratique: La conception modulaire facilite l'intégration dans les cadres FL existants

Insuffisances

  1. Analyse théorique insuffisante: Manque d'explications théoriques sur pourquoi la distillation de caractéristiques est supérieure à la distillation logit
  2. Analyse de complexité computationnelle: Pas d'analyse détaillée de la surcharge computationnelle de la projection orthogonale
  3. Validation à grande échelle limitée: Les expériences sont principalement menées sur des ensembles de données de taille moyenne

Impact

  1. Valeur académique: Fournit une nouvelle voie technologique pour l'apprentissage fédéré hétérogène en modèles
  2. Valeur pratique: Peut être directement appliquée aux scénarios IoT réels
  3. Valeur inspirante: Fournit de nouvelles perspectives pour la recherche sur la distillation de connaissances dans l'apprentissage fédéré

Scénarios d'Application

  1. Apprentissage fédéré sur appareils IoT: Collaboration d'entraînement d'appareils avec capacités de calcul différentes
  2. Coopération inter-organisationnelle: Partage de connaissances lorsque différentes organisations utilisent différentes architectures de modèles
  3. Informatique en périphérie: Apprentissage distribué dans les environnements aux ressources limitées

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage fédéré, de la distillation de connaissances et de la distillation fédérée, notamment:

  • FedAvg 34: Travail fondateur de l'apprentissage fédéré
  • HeteroFL 6: Méthode représentative de l'apprentissage fédéré hétérogène en modèles
  • Travaux connexes sur la distillation de connaissances 14, 15, 44: Fournissant les bases théoriques de cet article
  • Méthodes de distillation fédérée 33, 49, 58: Références de comparaison directe de cet article

Cet article propose une innovation importante dans le domaine de l'apprentissage fédéré hétérogène en modèles. En analysant en profondeur les limitations des méthodes existantes et en proposant une solution efficace, il apporte une contribution précieuse au développement de ce domaine. La conception modulaire de la méthode et ses excellents résultats expérimentaux lui confèrent une forte valeur pratique.