2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.

Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.

academic

Дистилляция признаков — лучший выбор для федеративного обучения с гетерогенными моделями

Основная информация

ID статьи: 2507.10348
Название: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
Авторы: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
Классификация: cs.LG cs.AI
Время публикации/Конференция: 39-я конференция по нейросетевым системам обработки информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2507.10348

Аннотация

Федеративное обучение с гетерогенными моделями (Hetero-FL) привлекает внимание благодаря способности агрегировать знания из гетерогенных моделей при сохранении локальной приватности данных. Для лучшей агрегации знаний клиентов ансамблевая дистилляция широко используется как эффективный метод, обычно применяемый после глобальной агрегации для повышения производительности глобальной модели. Однако простое объединение Hetero-FL и ансамблевой дистилляции не всегда дает хорошие результаты и может привести к нестабильности процесса обучения. Причина заключается в том, что существующие методы в основном полагаются на дистилляцию логитов, которая, хотя и обладает независимостью от модели через предсказания softmax, не может компенсировать смещение знаний, вызванное гетерогенными моделями. Для решения этой проблемы в данной работе предлагается стабильный и эффективный метод дистилляции признаков FedFD, который лучше интегрирует знания гетерогенных моделей путем объединения выровненной информации признаков с использованием ортогональной проекции.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как эффективно агрегировать знания из моделей клиентов с различными архитектурами в федеративном обучении с гетерогенными моделями. Традиционное федеративное обучение предполагает, что все клиенты используют одинаковую архитектуру модели, однако в реальной среде IoT различные устройства имеют разные вычислительные ресурсы и возможности обучения моделей.

Важность проблемы

Практические потребности: Гетерогенность IoT-устройств делает единую архитектуру модели нереалистичной
Максимизация ресурсов: Необходимо полностью использовать распределенные вычислительные ресурсы
Защита приватности: Достижение обмена знаниями при защите приватности данных

Ограничения существующих методов

Посредством анализа визуализации t-SNE и эмпирических экспериментов авторы выявили следующие проблемы существующих методов, основанных на дистилляции логитов:

Нечеткое представление: Агрегированные представления логитов имеют нечеткие границы классификации
Нестабильность обучения: Возникают колебания обучения в условиях гетерогенных моделей
Смещение знаний: Невозможность обработки различий в пространстве признаков, вызванных различными архитектурами моделей

Исследовательская мотивация

На основе глубокого анализа ограничений существующих методов авторы предлагают использовать дистилляцию признаков вместо дистилляции логитов, применяя технику ортогональной проекции для решения проблемы смещения при агрегировании знаний гетерогенных моделей.

Основные вклады

Глубокий анализ: Предоставляет детальный анализ независимой от модели федеративной дистилляции знаний, выявляя ограничения существующих методов, в основном полагающихся на дистилляцию логитов в условиях гетерогенных моделей
Предложение новой структуры: Представляет структуру FedFD — модуль персонализации plug-and-play, наследующий защиту приватности и эффективность традиционных методов дистилляции
Повышение производительности: Проведены обширные эксперименты на нескольких наборах данных и конфигурациях, показывающие улучшение точности тестирования на 16,09% по сравнению с передовыми методами

Подробное описание метода

Определение задачи

Рассмотрим задачу федеративного обучения с K клиентами, где каждый клиент k имеет доступ только к своему локальному приватному набору данных $D_k = \{x_k^{(i)}, y_k^{(i)}\}$ . Цель — обучить глобальную модель w, минимизирующую общую эмпирическую потерю:

$\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)$

где $L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)$

Архитектура модели

1. Многоуровневое выравнивание признаков

FedFD сначала группирует модели клиентов по архитектуре. Для каждого образца дистилляции x представление признаков на экстракторе $w_k^d$ определяется как: $e_k^d = f(w_k^d; x), \forall k \in [1,K]$

Затем признаки разделяются на m групп $\{S_1^d, ..., S_m^d\}$ , каждая группа содержит экстракторы одинаковой структуры. Агрегируются представления признаков внутри каждой группы: $e^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d$

2. Техника ортогональной проекции

Для решения проблемы конфликта знаний используется преобразование ортогональной проекции. Посредством кососимметричной матрицы $W_d$ генерируется слой проекции $M_d$ : $\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I$

где: $\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}$

3. Потеря дистилляции признаков

Используется дивергенция Кульбака-Лейблера для выравнивания представлений признаков: $\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)$

Технические инновации

От логитов к признакам: Первый систематический анализ проблем дистилляции логитов в условиях гетерогенных моделей, предложение дистилляции признаков как альтернативы
Стратегия многоуровневого выравнивания: Снижение количества слоев проекции путем группировки архитектур, повышение эффективности обучения
Техника ортогональной проекции: Использование кососимметричных матриц для генерации ортогональной проекции, решение конфликта знаний при сохранении вычислительной эффективности
Модульный дизайн: Беспрепятственная интеграция с существующими технологиями FL

Экспериментальная установка

Наборы данных

CIFAR-10: Классификация изображений 10 классов, 50 000 обучающих образцов, 10 000 тестовых образцов
CIFAR-100: Классификация изображений 100 классов, 50 000 обучающих образцов, 10 000 тестовых образцов
Tiny-ImageNet: Классификация изображений 200 классов, набор данных большего масштаба

Для моделирования гетерогенности данных используется распределение Дирихле Dir(α), где меньшее значение α указывает на более неравномерное распределение данных.

Метрики оценки

Точность тестирования: Точность классификации глобальной и локальных моделей
Эффективность коммуникации: Количество коммуникационных раундов, необходимых для достижения целевой точности
Стабильность сходимости: Анализ кривых обучения процесса обучения

Методы сравнения

Классические методы FL: HeteroFL, MOON-hetero
Методы гомогенного FL: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
Методы гетерогенного FL: FedMD, MSFKD, FedGD

Детали реализации

Локальные раунды обучения E=10, коммуникационные раунды T=200, количество клиентов K=20, коэффициент участия r=0,4
Размер пакета 64, затухание веса 1e-4
Скорость обучения дистилляции 0,01, скорость обучения локального обучения 0,001
Серверная модель использует ResNet-18, модели клиентов имеют 10 различных уровней сложности

Результаты экспериментов

Основные результаты

FedFD достигает лучшей производительности на всех наборах данных и конфигурациях:

Набор данных	Значение α	HeteroFL	FedGD	FedFD	Улучшение
CIFAR-10	1.0	87.53±0.15	87.22±0.13	89.64±0.23	2.11%
CIFAR-10	0.1	78.02±0.65	79.31±0.75	82.74±0.58	3.43%
CIFAR-100	1.0	57.42±0.12	58.03±0.26	60.86±0.10	2.83%
Tiny-ImageNet	1.0	29.88±2.72	30.66±1.59	34.24±1.13	4.36%

Эффективность коммуникации

FedFD также демонстрирует отличную эффективность коммуникации:

CIFAR-10 достижение 80% точности: FedFD требует 20 раундов, HeteroFL требует 25 раундов
CIFAR-100 достижение 60% точности: FedFD требует 60 раундов, другие методы требуют 171-200+ раундов

Абляционные эксперименты

Проверена важность каждого компонента:

Удаление выравнивания признаков: снижение производительности на 0,63-1,56%
Удаление ортогональной проекции: снижение производительности на 1,68-2,43%
Удаление обоих компонентов: значительное снижение производительности, возврат к уровню FedFusion

Анализ стабильности

Сравнение кривых обучения показало:

При гомогенных моделях: все методы дистилляции логитов быстро и стабильно сходятся
При гетерогенных моделях: методы дистилляции логитов демонстрируют колебания обучения, в то время как FedFD сохраняет стабильную сходимость

Эксперименты по масштабируемости

При более экстремальных условиях гетерогенности данных (α=0,01) и различных комбинациях архитектур моделей FedFD сохраняет оптимальную производительность.

Связанные работы

Федеративное обучение

Развитие от гомогенной агрегации моделей FedAvg к методам, поддерживающим гетерогенные модели, таким как HeteroFL через частичную агрегацию параметров, NeFL через вложенные структуры для адаптации к различным глубинам.

Дистилляция знаний

Включает два основных класса: дистилляцию логитов и дистилляцию признаков. Данная работа сосредоточена на применении дистилляции признаков в федеративном обучении, преодолевая существующие ограничения посредством ортогональной проекции и ансамблевой дистилляции.

Федеративная дистилляция

Существующие методы в основном полагаются на дистилляцию логитов или требуют дополнительных наборов прокси-данных. Данная работа анализирует ограничения этих методов в условиях гетерогенных моделей.

Заключение и обсуждение

Основные выводы

Выявление проблемы: Дистилляция логитов имеет проблемы смещения знаний и нестабильности обучения в условиях гетерогенных моделей
Предложенное решение: Дистилляция признаков в сочетании с ортогональной проекцией эффективно решает проблему агрегирования знаний гетерогенных моделей
Проверка производительности: FedFD достигает значительного повышения производительности во всех конфигурациях

Ограничения

Вычислительные затраты: Необходимость поддержания слоев проекции для различных архитектур увеличивает вычислительные затраты на стороне сервера
Зависимость от архитектуры: Эффективность метода может зависеть от степени разнообразия архитектур моделей клиентов
Данные для дистилляции: По-прежнему требуется вспомогательный набор данных для дистилляции, хотя может быть объединен с методами без данных

Направления будущих исследований

Исследование полностью безданных методов дистилляции признаков
Изучение более эффективных конструкций слоев проекции
Расширение на дополнительные модальности и типы задач

Глубокая оценка

Преимущества

Глубокое понимание проблемы: Четкое выявление фундаментальных проблем существующих методов посредством визуализации и эмпирического анализа
Разумный дизайн метода: Использование техники ортогональной проекции одновременно решает конфликт знаний и сохраняет вычислительную эффективность
Полные и достаточные эксперименты: Охватывают несколько наборов данных, различные степени гетерогенности, абляционные эксперименты и т.д.
Сильная инженерная практичность: Модульный дизайн облегчает интеграцию в существующие структуры FL

Недостатки

Недостаточный теоретический анализ: Отсутствует теоретическое объяснение того, почему дистилляция признаков превосходит дистилляцию логитов
Анализ вычислительной сложности: Отсутствует детальный анализ вычислительных затрат ортогональной проекции
Ограниченная проверка в большом масштабе: Эксперименты в основном проводились на наборах данных среднего масштаба

Влияние

Академическая ценность: Предоставляет новый технический путь для федеративного обучения с гетерогенными моделями
Практическая ценность: Может быть непосредственно применен в реальных сценариях IoT
Вдохновляющее значение: Предоставляет новые идеи для исследований дистилляции знаний в федеративном обучении

Применимые сценарии

Федеративное обучение IoT-устройств: Сотрудничество устройств с различными вычислительными возможностями
Сотрудничество между организациями: Обмен знаниями при использовании различных архитектур моделей разными организациями
Граничные вычисления: Распределенное обучение в среде с ограниченными ресурсами

Библиография

Данная работа ссылается на важные работы в области федеративного обучения, дистилляции знаний и федеративной дистилляции, включая:

FedAvg 34: Основополагающая работа в федеративном обучении
HeteroFL 6: Представительный метод федеративного обучения с гетерогенными моделями
Работы по дистилляции знаний 14, 15, 44: Предоставляют теоретическую основу для данной работы
Методы федеративной дистилляции 33, 49, 58: Прямые базовые методы для сравнения

Данная статья представляет важные инновации в области федеративного обучения с гетерогенными моделями. Посредством глубокого анализа ограничений существующих методов и предложения эффективного решения она вносит ценный вклад в развитие этой области. Модульный дизайн метода и отличные результаты экспериментов обеспечивают ему высокую практическую ценность.