2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.
Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
academic

La Destilación de Características es la Mejor Opción para el Aprendizaje Federado Heterogéneo de Modelos

Información Básica

  • ID del Artículo: 2507.10348
  • Título: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
  • Autores: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
  • Clasificación: cs.LG cs.AI
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2507.10348

Resumen

El aprendizaje federado heterogéneo de modelos (Hetero-FL) ha recibido considerable atención por su capacidad de agregar conocimiento de modelos heterogéneos mientras se mantiene la privacidad de los datos locales. Para agregar mejor el conocimiento de los clientes, la destilación de conjuntos se utiliza ampliamente como técnica efectiva, generalmente aplicada después de la agregación global para mejorar el rendimiento del modelo global. Sin embargo, la simple combinación de Hetero-FL y destilación de conjuntos no siempre produce buenos resultados e incluso puede causar inestabilidad en el proceso de entrenamiento. La razón radica en que los métodos existentes dependen principalmente de la destilación de logits, que aunque es agnóstica al modelo a través de predicciones softmax, no puede compensar el sesgo de conocimiento producido por modelos heterogéneos. Para abordar este desafío, este artículo propone FedFD, un método de destilación de características estable y eficiente que integra mejor el conocimiento de modelos heterogéneos mediante la proyección ortogonal para alinear información de características.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es cómo agregar efectivamente el conocimiento de modelos de clientes con diferentes arquitecturas en el aprendizaje federado heterogéneo de modelos. El aprendizaje federado tradicional asume que todos los clientes utilizan la misma arquitectura de modelo, pero en entornos IoT reales, diferentes dispositivos poseen diferentes recursos computacionales y capacidades de entrenamiento de modelos.

Importancia del Problema

  1. Demanda Práctica: La heterogeneidad de dispositivos IoT hace que una arquitectura de modelo unificada sea impráctica
  2. Maximización de Recursos: Necesidad de utilizar plenamente los recursos computacionales distribuidos
  3. Protección de Privacidad: Lograr el intercambio de conocimiento mientras se protege la privacidad de los datos

Limitaciones de Métodos Existentes

Mediante análisis de visualización t-SNE y experimentos empíricos, los autores descubren que los métodos existentes basados en destilación de logits presentan los siguientes problemas:

  1. Representación Ambigua: Las representaciones de logits agregados tienen límites de clasificación ambiguos
  2. Entrenamiento Inestable: Oscilaciones de entrenamiento en configuraciones de modelos heterogéneos
  3. Sesgo de Conocimiento: Incapacidad para manejar diferencias en el espacio de características causadas por diferentes arquitecturas de modelos

Motivación de la Investigación

Basándose en el análisis profundo de las limitaciones de los métodos existentes, los autores proponen utilizar destilación de características en lugar de destilación de logits, resolviendo el problema de sesgo en la agregación de conocimiento de modelos heterogéneos mediante técnicas de proyección ortogonal.

Contribuciones Principales

  1. Análisis Profundo: Proporciona un análisis exhaustivo de la destilación de conocimiento federado agnóstica al modelo, identificando las limitaciones de los métodos existentes que dependen principalmente de la destilación de logits en modelos heterogéneos
  2. Propuesta de Nuevo Marco: Presenta el marco FedFD, un módulo de mejora personalizada plug-and-play que hereda las características de protección de privacidad y eficiencia de los métodos de destilación tradicionales
  3. Mejora de Rendimiento: Realiza experimentos extensos en múltiples conjuntos de datos y configuraciones, logrando mejoras de hasta 16.09% en precisión de prueba en comparación con métodos de última generación

Explicación Detallada del Método

Definición de la Tarea

Se considera un problema de aprendizaje federado con K clientes, donde cada cliente k solo puede acceder a su conjunto de datos privados locales Dk={xk(i),yk(i)}D_k = \{x_k^{(i)}, y_k^{(i)}\}. El objetivo es aprender un modelo global w que minimice la pérdida empírica total:

minwL(w)=k=1KDkDLk(w)\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)

donde Lk(w)=1Dki=1DkLCE(w;xki,yki)L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)

Arquitectura del Modelo

1. Alineación de Características Jerárquica

FedFD primero agrupa los modelos de clientes por arquitectura. Para cada muestra de destilación x, su representación de características en el extractor wkdw_k^d se define como: ekd=f(wkd;x),k[1,K]e_k^d = f(w_k^d; x), \forall k \in [1,K]

Luego se dividen las características en m grupos {S1d,...,Smd}\{S_1^d, ..., S_m^d\}, donde cada grupo contiene extractores con la misma estructura. Se agregan las representaciones de características dentro del mismo grupo: ed=1Sdi=1Sdeide^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d

2. Técnica de Proyección Ortogonal

Para resolver el problema de conflicto de conocimiento, se utiliza una transformación de proyección ortogonal. Mediante una matriz antisimétrica WdW_d se genera la capa de proyección MdM_d: exp(Wd)exp(Wd)T=exp(Wd+WdT)=exp(WdT+WdT)=I\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I

donde: exp(Wd)=I+Wd+Wd22!+Wd33!++Wdnn!\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}

3. Pérdida de Destilación de Características

Se utiliza divergencia KL para alinear representaciones de características: minw,{M2,...,Mm}1m1i=2mKL(Mi(wx),ei)\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)

Puntos de Innovación Técnica

  1. De Logits a Características: Primer análisis sistemático de los problemas de la destilación de logits en modelos heterogéneos, proponiendo destilación de características como alternativa
  2. Estrategia de Alineación Jerárquica: Reduce la cantidad de capas de proyección mediante agrupación de arquitecturas, mejorando la eficiencia del entrenamiento
  3. Técnica de Proyección Ortogonal: Utiliza matrices antisimétricas para generar proyecciones ortogonales, resolviendo conflictos de conocimiento mientras se mantiene la eficiencia computacional
  4. Diseño Modular: Se integra sin problemas con tecnologías FL existentes

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10: Clasificación de imágenes de 10 clases, 50,000 muestras de entrenamiento, 10,000 muestras de prueba
  • CIFAR-100: Clasificación de imágenes de 100 clases, 50,000 muestras de entrenamiento, 10,000 muestras de prueba
  • Tiny-ImageNet: Clasificación de imágenes de 200 clases, conjunto de datos de mayor escala

Se utiliza la distribución de Dirichlet Dir(α) para simular heterogeneidad de datos, donde valores más pequeños de α indican distribuciones de datos más desiguales.

Métricas de Evaluación

  • Precisión de Prueba: Precisión de clasificación del modelo global y modelos locales
  • Eficiencia de Comunicación: Número de rondas de comunicación necesarias para alcanzar la precisión objetivo
  • Estabilidad de Convergencia: Análisis de curvas de aprendizaje del proceso de entrenamiento

Métodos de Comparación

  1. Métodos FL Clásicos: HeteroFL, MOON-hetero
  2. Métodos FL Homogéneos: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
  3. Métodos FL Heterogéneos: FedMD, MSFKD, FedGD

Detalles de Implementación

  • Rondas de entrenamiento local E=10, rondas de comunicación T=200, número de clientes K=20, tasa de participación r=0.4
  • Tamaño de lote 64, decaimiento de peso 1e-4
  • Tasa de aprendizaje de destilación 0.01, tasa de aprendizaje de entrenamiento local 0.001
  • Modelo del servidor utiliza ResNet-18, modelos de clientes con 10 niveles diferentes de complejidad

Resultados Experimentales

Resultados Principales

FedFD logra el mejor rendimiento en todos los conjuntos de datos y configuraciones:

Conjunto de DatosValor αHeteroFLFedGDFedFDMejora
CIFAR-101.087.53±0.1587.22±0.1389.64±0.232.11%
CIFAR-100.178.02±0.6579.31±0.7582.74±0.583.43%
CIFAR-1001.057.42±0.1258.03±0.2660.86±0.102.83%
Tiny-ImageNet1.029.88±2.7230.66±1.5934.24±1.134.36%

Eficiencia de Comunicación

FedFD también muestra un desempeño excelente en eficiencia de comunicación:

  • CIFAR-10 alcanzando 80% de precisión: FedFD requiere 20 rondas, HeteroFL requiere 25 rondas
  • CIFAR-100 alcanzando 60% de precisión: FedFD requiere 60 rondas, otros métodos requieren 171-200+ rondas

Experimentos de Ablación

Se verifica la importancia de cada componente:

  • Eliminación de alineación de características: disminución de rendimiento de 0.63-1.56%
  • Eliminación de proyección ortogonal: disminución de rendimiento de 1.68-2.43%
  • Eliminación de ambos componentes: disminución significativa de rendimiento, regresión al nivel de FedFusion

Análisis de Estabilidad

Mediante comparación de curvas de aprendizaje se descubre:

  • En modelos homogéneos: todos los métodos de destilación de logits convergen rápida y establemente
  • En modelos heterogéneos: los métodos de destilación de logits presentan oscilaciones de entrenamiento, mientras que FedFD mantiene convergencia estable

Experimentos de Escalabilidad

En configuraciones más extremas de heterogeneidad de datos (α=0.01) y diferentes combinaciones de arquitecturas de modelos, FedFD mantiene un rendimiento óptimo.

Trabajo Relacionado

Aprendizaje Federado

Evolución desde la agregación de modelos homogéneos de FedAvg hacia métodos que soportan modelos heterogéneos, como HeteroFL mediante agregación de parámetros parciales, NeFL mediante estructuras anidadas que se adaptan a diferentes profundidades.

Destilación de Conocimiento

Incluye dos categorías principales: destilación de logits y destilación de características. Este artículo se enfoca en la aplicación de destilación de características en aprendizaje federado, superando limitaciones existentes mediante proyección ortogonal y destilación de conjuntos.

Destilación Federada

Los métodos existentes dependen principalmente de destilación de logits o requieren conjuntos de datos proxy adicionales. Este artículo analiza las limitaciones de estos métodos en modelos heterogéneos.

Conclusiones y Discusión

Conclusiones Principales

  1. Identificación del Problema: La destilación de logits presenta problemas de sesgo de conocimiento e inestabilidad de entrenamiento en modelos heterogéneos
  2. Solución Propuesta: La destilación de características combinada con proyección ortogonal puede resolver efectivamente el problema de agregación de conocimiento en modelos heterogéneos
  3. Verificación de Rendimiento: FedFD logra mejoras significativas de rendimiento en múltiples configuraciones

Limitaciones

  1. Costo Computacional: Requiere mantener capas de proyección para diferentes arquitecturas, aumentando el costo computacional del servidor
  2. Dependencia de Arquitectura: El rendimiento del método puede depender del grado de diversidad de arquitecturas de modelos de clientes
  3. Datos de Destilación: Aún requiere un conjunto de datos auxiliar para destilación, aunque puede combinarse con métodos sin datos

Direcciones Futuras

  1. Explorar métodos de destilación de características completamente sin datos
  2. Investigar diseños de capas de proyección más eficientes
  3. Extender a más modalidades y tipos de tareas

Evaluación Profunda

Fortalezas

  1. Perspectiva del Problema Profunda: Identifica claramente el problema fundamental de los métodos existentes mediante visualización y análisis empírico
  2. Diseño de Método Razonable: El uso de técnicas de proyección ortogonal resuelve conflictos de conocimiento mientras mantiene eficiencia computacional
  3. Experimentos Completos y Exhaustivos: Abarca múltiples conjuntos de datos, diferentes grados de heterogeneidad, experimentos de ablación, etc.
  4. Fuerte Practicidad de Ingeniería: El diseño modular facilita la integración en marcos FL existentes

Insuficiencias

  1. Análisis Teórico Limitado: Carece de explicación teórica sobre por qué la destilación de características es superior a la destilación de logits
  2. Análisis de Complejidad Computacional: No analiza detalladamente el costo computacional de la proyección ortogonal
  3. Validación a Gran Escala Limitada: Los experimentos se realizan principalmente en conjuntos de datos de escala media

Impacto

  1. Valor Académico: Proporciona una nueva ruta técnica para el aprendizaje federado heterogéneo
  2. Valor Práctico: Puede aplicarse directamente a escenarios IoT reales
  3. Significado Inspirador: Proporciona nuevas perspectivas para la investigación de destilación de conocimiento en aprendizaje federado

Escenarios Aplicables

  1. Aprendizaje Federado en Dispositivos IoT: Colaboración de entrenamiento de dispositivos con diferentes capacidades computacionales
  2. Cooperación Entre Instituciones: Intercambio de conocimiento cuando diferentes organizaciones utilizan diferentes arquitecturas de modelos
  3. Computación de Borde: Aprendizaje distribuido en entornos con recursos limitados

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje federado, destilación de conocimiento y destilación federada, incluyendo:

  • FedAvg 34: Trabajo fundamental en aprendizaje federado
  • HeteroFL 6: Método representativo de aprendizaje federado heterogéneo
  • Trabajos relacionados con destilación de conocimiento 14, 15, 44: Proporcionan base teórica para este artículo
  • Métodos de destilación federada 33, 49, 58: Puntos de referencia de comparación directa para este artículo

Este artículo propone una innovación importante en el campo del aprendizaje federado heterogéneo. Mediante análisis profundo de las limitaciones de los métodos existentes y la propuesta de una solución efectiva, realiza una contribución valiosa al desarrollo del campo. El diseño modular del método y los excelentes resultados experimentales le confieren un fuerte valor práctico.