2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.

Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.

academic

특성 증류가 모델 이질성 연합 학습의 더 나은 선택이다

기본 정보

논문 ID: 2507.10348
제목: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
저자: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
분류: cs.LG cs.AI
발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
논문 링크: https://arxiv.org/abs/2507.10348

초록

모델 이질성 연합 학습(Hetero-FL)은 데이터 로컬 프라이버시를 유지하면서 이질적 모델 지식을 집계할 수 있어 주목받고 있습니다. 클라이언트 지식을 더 잘 집계하기 위해 앙상블 증류는 광범위하게 사용되고 효과적인 기술로서 일반적으로 글로벌 집계 후 글로벌 모델 성능을 향상시키는 데 사용됩니다. 그러나 Hetero-FL과 앙상블 증류를 단순히 결합하는 것이 항상 좋은 결과를 생성하지는 않으며, 훈련 과정의 불안정성을 초래할 수도 있습니다. 그 이유는 기존 방법들이 주로 로짓 증류에 의존하기 때문입니다. 로짓 증류는 소프트맥스 예측을 통해 모델 무관성을 가지지만 이질적 모델로 인한 지식 편향을 보정할 수 없습니다. 이러한 도전 과제를 해결하기 위해 본 논문은 정규직교 투영을 통해 정렬된 특성 정보를 통합하여 이질적 모델 지식을 더 잘 집계하는 안정적이고 효율적인 특성 증류 방법 FedFD를 제안합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 모델 이질성 연합 학습에서 서로 다른 아키텍처의 클라이언트 모델로부터의 지식을 어떻게 효과적으로 집계할 것인가입니다. 전통적인 연합 학습은 모든 클라이언트가 동일한 모델 아키텍처를 사용한다고 가정하지만, 실제 IoT 환경에서는 서로 다른 장치가 서로 다른 계산 자원과 모델 훈련 능력을 가지고 있습니다.

문제의 중요성

현실적 필요성: IoT 장치의 이질성으로 인해 통일된 모델 아키텍처가 비현실적임
자원 최대화: 분산 컴퓨팅 자원을 충분히 활용할 필요성
프라이버시 보호: 데이터 프라이버시를 보호하면서 동시에 지식 공유 실현

기존 방법의 한계

t-SNE 시각화 분석 및 실증 실험을 통해 저자들은 기존의 로짓 증류 기반 방법들이 다음과 같은 문제를 가지고 있음을 발견했습니다:

표현의 모호성: 집계된 로짓 표현이 모호한 분류 경계를 가짐
훈련 불안정성: 이질적 모델 설정에서 훈련 진동 발생
지식 편향: 서로 다른 모델 아키텍처로 인한 특성 공간 차이를 처리할 수 없음

연구 동기

기존 방법의 한계에 대한 심층 분석을 바탕으로, 저자들은 로짓 증류를 특성 증류로 대체하고 정규직교 투영 기술을 통해 이질적 모델 지식 집계의 편향 문제를 해결할 것을 제안합니다.

핵심 기여

심층 분석: 모델 무관 연합 지식 증류에 대한 심층 분석을 제공하며, 기존 방법이 주로 로짓 증류에 의존하는 것이 이질적 모델 환경에서의 한계를 식별합니다.
새로운 프레임워크 제안: FedFD 프레임워크를 제안하며, 이는 플러그 앤 플레이 개인화 강화 모듈로서 전통적인 증류 방법의 프라이버시 보호 및 효율성 특성을 상속합니다.
성능 향상: 여러 데이터셋 및 설정에서 광범위한 실험을 수행하여 최첨단 방법 대비 테스트 정확도에서 최대 16.09% 향상을 달성합니다.

방법 상세 설명

작업 정의

K개 클라이언트의 연합 학습 문제를 고려하며, 각 클라이언트 k는 자신의 로컬 개인 데이터셋 $D_k = \{x_k^{(i)}, y_k^{(i)}\}$ 에만 접근할 수 있습니다. 목표는 전체 경험 손실을 최소화하는 글로벌 모델 w를 학습하는 것입니다:

$\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)$

여기서 $L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)$

모델 아키텍처

1. 계층적 특성 정렬

FedFD는 먼저 클라이언트 모델을 아키텍처별로 그룹화하며, 각 증류 샘플 x에 대해 추출기 $w_k^d$ 에서의 특성 표현은 다음과 같습니다: $e_k^d = f(w_k^d; x), \forall k \in [1,K]$

그 후 특성을 m개 그룹 $\{S_1^d, ..., S_m^d\}$ 으로 분할하며, 각 그룹은 동일한 구조의 추출기를 포함합니다. 동일 그룹 내의 특성 표현을 집계합니다: $e^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d$

2. 정규직교 투영 기술

지식 충돌 문제를 해결하기 위해 정규직교 투영 변환을 사용합니다. 반대칭 행렬 $W_d$ 를 통해 투영층 $M_d$ 를 생성합니다: $\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I$

여기서: $\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}$

3. 특성 증류 손실

KL 발산을 사용하여 특성 표현을 정렬합니다: $\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)$

기술 혁신점

로짓에서 특성으로: 로짓 증류가 이질적 모델에서 가지는 문제를 처음으로 체계적으로 분석하고 특성 증류를 대안으로 제안합니다.
계층적 정렬 전략: 아키텍처 그룹화를 통해 투영층의 수를 줄이고 훈련 효율성을 향상시킵니다.
정규직교 투영 기술: 반대칭 행렬을 사용하여 정규직교 투영을 생성하며, 지식 충돌을 해결하면서 계산 효율성을 유지합니다.
모듈식 설계: 기존 FL 기술과 무결한 통합이 가능합니다.

실험 설정

데이터셋

CIFAR-10: 10개 클래스 이미지 분류, 50,000개 훈련 샘플, 10,000개 테스트 샘플
CIFAR-100: 100개 클래스 이미지 분류, 50,000개 훈련 샘플, 10,000개 테스트 샘플
Tiny-ImageNet: 200개 클래스 이미지 분류, 더 큰 규모 데이터셋

데이터 이질성을 시뮬레이션하기 위해 디리클레 분포 Dir(α)를 사용하며, α 값이 작을수록 데이터 분포가 더 불균형함을 나타냅니다.

평가 지표

테스트 정확도: 글로벌 모델 및 로컬 모델의 분류 정확도
통신 효율성: 목표 정확도에 도달하는 데 필요한 통신 라운드 수
수렴 안정성: 훈련 과정의 학습 곡선 분석

비교 방법

고전적 FL 방법: HeteroFL, MOON-hetero
동형 FL 방법: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
이질적 FL 방법: FedMD, MSFKD, FedGD

구현 세부사항

로컬 훈련 라운드 E=10, 통신 라운드 T=200, 클라이언트 수 K=20, 참여율 r=0.4
배치 크기 64, 가중치 감쇠 1e-4
증류 학습률 0.01, 로컬 훈련 학습률 0.001
서버 모델은 ResNet-18 사용, 클라이언트 모델은 10개의 서로 다른 복잡도 수준 보유

실험 결과

주요 결과

모든 데이터셋 및 설정에서 FedFD는 최고의 성능을 달성했습니다:

데이터셋	α값	HeteroFL	FedGD	FedFD	향상도
CIFAR-10	1.0	87.53±0.15	87.22±0.13	89.64±0.23	2.11%
CIFAR-10	0.1	78.02±0.65	79.31±0.75	82.74±0.58	3.43%
CIFAR-100	1.0	57.42±0.12	58.03±0.26	60.86±0.10	2.83%
Tiny-ImageNet	1.0	29.88±2.72	30.66±1.59	34.24±1.13	4.36%