2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.
Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
academic

특성 증류가 모델 이질성 연합 학습의 더 나은 선택이다

기본 정보

  • 논문 ID: 2507.10348
  • 제목: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
  • 저자: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
  • 분류: cs.LG cs.AI
  • 발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 논문 링크: https://arxiv.org/abs/2507.10348

초록

모델 이질성 연합 학습(Hetero-FL)은 데이터 로컬 프라이버시를 유지하면서 이질적 모델 지식을 집계할 수 있어 주목받고 있습니다. 클라이언트 지식을 더 잘 집계하기 위해 앙상블 증류는 광범위하게 사용되고 효과적인 기술로서 일반적으로 글로벌 집계 후 글로벌 모델 성능을 향상시키는 데 사용됩니다. 그러나 Hetero-FL과 앙상블 증류를 단순히 결합하는 것이 항상 좋은 결과를 생성하지는 않으며, 훈련 과정의 불안정성을 초래할 수도 있습니다. 그 이유는 기존 방법들이 주로 로짓 증류에 의존하기 때문입니다. 로짓 증류는 소프트맥스 예측을 통해 모델 무관성을 가지지만 이질적 모델로 인한 지식 편향을 보정할 수 없습니다. 이러한 도전 과제를 해결하기 위해 본 논문은 정규직교 투영을 통해 정렬된 특성 정보를 통합하여 이질적 모델 지식을 더 잘 집계하는 안정적이고 효율적인 특성 증류 방법 FedFD를 제안합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 모델 이질성 연합 학습에서 서로 다른 아키텍처의 클라이언트 모델로부터의 지식을 어떻게 효과적으로 집계할 것인가입니다. 전통적인 연합 학습은 모든 클라이언트가 동일한 모델 아키텍처를 사용한다고 가정하지만, 실제 IoT 환경에서는 서로 다른 장치가 서로 다른 계산 자원과 모델 훈련 능력을 가지고 있습니다.

문제의 중요성

  1. 현실적 필요성: IoT 장치의 이질성으로 인해 통일된 모델 아키텍처가 비현실적임
  2. 자원 최대화: 분산 컴퓨팅 자원을 충분히 활용할 필요성
  3. 프라이버시 보호: 데이터 프라이버시를 보호하면서 동시에 지식 공유 실현

기존 방법의 한계

t-SNE 시각화 분석 및 실증 실험을 통해 저자들은 기존의 로짓 증류 기반 방법들이 다음과 같은 문제를 가지고 있음을 발견했습니다:

  1. 표현의 모호성: 집계된 로짓 표현이 모호한 분류 경계를 가짐
  2. 훈련 불안정성: 이질적 모델 설정에서 훈련 진동 발생
  3. 지식 편향: 서로 다른 모델 아키텍처로 인한 특성 공간 차이를 처리할 수 없음

연구 동기

기존 방법의 한계에 대한 심층 분석을 바탕으로, 저자들은 로짓 증류를 특성 증류로 대체하고 정규직교 투영 기술을 통해 이질적 모델 지식 집계의 편향 문제를 해결할 것을 제안합니다.

핵심 기여

  1. 심층 분석: 모델 무관 연합 지식 증류에 대한 심층 분석을 제공하며, 기존 방법이 주로 로짓 증류에 의존하는 것이 이질적 모델 환경에서의 한계를 식별합니다.
  2. 새로운 프레임워크 제안: FedFD 프레임워크를 제안하며, 이는 플러그 앤 플레이 개인화 강화 모듈로서 전통적인 증류 방법의 프라이버시 보호 및 효율성 특성을 상속합니다.
  3. 성능 향상: 여러 데이터셋 및 설정에서 광범위한 실험을 수행하여 최첨단 방법 대비 테스트 정확도에서 최대 16.09% 향상을 달성합니다.

방법 상세 설명

작업 정의

K개 클라이언트의 연합 학습 문제를 고려하며, 각 클라이언트 k는 자신의 로컬 개인 데이터셋 Dk={xk(i),yk(i)}D_k = \{x_k^{(i)}, y_k^{(i)}\}에만 접근할 수 있습니다. 목표는 전체 경험 손실을 최소화하는 글로벌 모델 w를 학습하는 것입니다:

minwL(w)=k=1KDkDLk(w)\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)

여기서 Lk(w)=1Dki=1DkLCE(w;xki,yki)L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)

모델 아키텍처

1. 계층적 특성 정렬

FedFD는 먼저 클라이언트 모델을 아키텍처별로 그룹화하며, 각 증류 샘플 x에 대해 추출기 wkdw_k^d에서의 특성 표현은 다음과 같습니다: ekd=f(wkd;x),k[1,K]e_k^d = f(w_k^d; x), \forall k \in [1,K]

그 후 특성을 m개 그룹 {S1d,...,Smd}\{S_1^d, ..., S_m^d\}으로 분할하며, 각 그룹은 동일한 구조의 추출기를 포함합니다. 동일 그룹 내의 특성 표현을 집계합니다: ed=1Sdi=1Sdeide^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d

2. 정규직교 투영 기술

지식 충돌 문제를 해결하기 위해 정규직교 투영 변환을 사용합니다. 반대칭 행렬 WdW_d를 통해 투영층 MdM_d를 생성합니다: exp(Wd)exp(Wd)T=exp(Wd+WdT)=exp(WdT+WdT)=I\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I

여기서: exp(Wd)=I+Wd+Wd22!+Wd33!++Wdnn!\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}

3. 특성 증류 손실

KL 발산을 사용하여 특성 표현을 정렬합니다: minw,{M2,...,Mm}1m1i=2mKL(Mi(wx),ei)\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)

기술 혁신점

  1. 로짓에서 특성으로: 로짓 증류가 이질적 모델에서 가지는 문제를 처음으로 체계적으로 분석하고 특성 증류를 대안으로 제안합니다.
  2. 계층적 정렬 전략: 아키텍처 그룹화를 통해 투영층의 수를 줄이고 훈련 효율성을 향상시킵니다.
  3. 정규직교 투영 기술: 반대칭 행렬을 사용하여 정규직교 투영을 생성하며, 지식 충돌을 해결하면서 계산 효율성을 유지합니다.
  4. 모듈식 설계: 기존 FL 기술과 무결한 통합이 가능합니다.

실험 설정

데이터셋

  • CIFAR-10: 10개 클래스 이미지 분류, 50,000개 훈련 샘플, 10,000개 테스트 샘플
  • CIFAR-100: 100개 클래스 이미지 분류, 50,000개 훈련 샘플, 10,000개 테스트 샘플
  • Tiny-ImageNet: 200개 클래스 이미지 분류, 더 큰 규모 데이터셋

데이터 이질성을 시뮬레이션하기 위해 디리클레 분포 Dir(α)를 사용하며, α 값이 작을수록 데이터 분포가 더 불균형함을 나타냅니다.

평가 지표

  • 테스트 정확도: 글로벌 모델 및 로컬 모델의 분류 정확도
  • 통신 효율성: 목표 정확도에 도달하는 데 필요한 통신 라운드 수
  • 수렴 안정성: 훈련 과정의 학습 곡선 분석

비교 방법

  1. 고전적 FL 방법: HeteroFL, MOON-hetero
  2. 동형 FL 방법: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
  3. 이질적 FL 방법: FedMD, MSFKD, FedGD

구현 세부사항

  • 로컬 훈련 라운드 E=10, 통신 라운드 T=200, 클라이언트 수 K=20, 참여율 r=0.4
  • 배치 크기 64, 가중치 감쇠 1e-4
  • 증류 학습률 0.01, 로컬 훈련 학습률 0.001
  • 서버 모델은 ResNet-18 사용, 클라이언트 모델은 10개의 서로 다른 복잡도 수준 보유

실험 결과

주요 결과

모든 데이터셋 및 설정에서 FedFD는 최고의 성능을 달성했습니다:

데이터셋α값HeteroFLFedGDFedFD향상도
CIFAR-101.087.53±0.1587.22±0.1389.64±0.232.11%
CIFAR-100.178.02±0.6579.31±0.7582.74±0.583.43%
CIFAR-1001.057.42±0.1258.03±0.2660.86±0.102.83%
Tiny-ImageNet1.029.88±2.7230.66±1.5934.24±1.134.36%

통신 효율성

FedFD는 통신 효율성 측면에서도 우수한 성능을 보였습니다:

  • CIFAR-10에서 80% 정확도 달성: FedFD는 20라운드 필요, HeteroFL은 25라운드 필요
  • CIFAR-100에서 60% 정확도 달성: FedFD는 60라운드 필요, 다른 방법들은 171-200+라운드 필요

절제 실험

각 구성 요소의 중요성을 검증했습니다:

  • 특성 정렬 제거: 성능 0.63-1.56% 감소
  • 정규직교 투영 제거: 성능 1.68-2.43% 감소
  • 두 구성 요소 모두 제거: 성능 현저히 감소, FedFusion 수준으로 회귀

안정성 분석

학습 곡선 비교를 통해 다음을 발견했습니다:

  • 동형 모델 환경: 모든 로짓 증류 방법이 빠르고 안정적으로 수렴
  • 이질적 모델 환경: 로짓 증류 방법에서 훈련 진동 발생, FedFD는 안정적 수렴 유지

확장성 실험

더욱 극단적인 데이터 이질성 설정(α=0.01) 및 서로 다른 모델 아키텍처 조합에서도 FedFD는 최적의 성능을 유지합니다.

관련 연구

연합 학습

FedAvg의 동형 모델 집계에서 HeteroFL과 같이 부분 매개변수 집계를 통하거나 NeFL과 같이 중첩된 구조를 통해 서로 다른 깊이에 적응하는 이질적 모델 지원 방법으로 발전했습니다.

지식 증류

로짓 증류와 특성 증류의 두 가지 주요 범주를 포함합니다. 본 논문은 연합 학습에서 특성 증류의 응용에 초점을 맞추며, 정규직교 투영과 앙상블 증류를 통해 기존 한계를 극복합니다.

연합 증류

기존 방법들은 주로 로짓 증류에 의존하거나 추가 프록시 데이터셋이 필요합니다. 본 논문은 이러한 방법들이 이질적 모델 환경에서 가지는 한계를 분석합니다.

결론 및 논의

주요 결론

  1. 문제 식별: 로짓 증류는 이질적 모델 환경에서 지식 편향 및 훈련 불안정성 문제를 가짐
  2. 해결책: 특성 증류와 정규직교 투영의 조합이 이질적 모델 지식 집계 문제를 효과적으로 해결할 수 있음
  3. 성능 검증: FedFD는 다양한 설정에서 현저한 성능 향상을 달성함

한계

  1. 계산 오버헤드: 서로 다른 아키텍처를 위해 투영층을 유지해야 하므로 서버 측 계산 비용 증가
  2. 아키텍처 의존성: 방법의 효과는 클라이언트 모델 아키텍처의 다양성 정도에 따라 달라질 수 있음
  3. 증류 데이터: 증류를 위해 보조 데이터셋이 여전히 필요하며, 무데이터 방법과 결합할 수 있지만 완전히 제거되지는 않음

향후 방향

  1. 완전히 무데이터인 특성 증류 방법 탐색
  2. 더욱 효율적인 투영층 설계 연구
  3. 더 많은 모달리티 및 작업 유형으로의 확장

심층 평가

장점

  1. 문제 통찰력이 깊음: 시각화 및 실증 분석을 통해 기존 방법의 근본적인 문제를 명확히 식별함
  2. 방법 설계가 합리적: 정규직교 투영 기술의 사용이 지식 충돌을 해결하면서 계산 효율성을 유지함
  3. 실험이 포괄적이고 충분함: 여러 데이터셋, 서로 다른 이질성 정도, 절제 실험 등을 포함함
  4. 공학적 실용성이 강함: 모듈식 설계로 인해 기존 FL 프레임워크에 쉽게 통합 가능

부족한 점

  1. 이론 분석 부족: 특성 증류가 로짓 증류보다 우수한 이유에 대한 이론적 설명 부재
  2. 계산 복잡도 분석 미흡: 정규직교 투영의 계산 오버헤드에 대한 상세 분석 부재
  3. 대규모 검증 제한적: 실험이 주로 중간 규모 데이터셋에서 수행됨

영향력

  1. 학술적 가치: 이질적 연합 학습을 위한 새로운 기술 경로 제공
  2. 실용적 가치: 실제 IoT 시나리오에 직접 적용 가능
  3. 영감 제공: 연합 학습에서의 지식 증류 연구에 새로운 사고 방식 제공

적용 시나리오

  1. IoT 장치 연합 학습: 서로 다른 계산 능력을 가진 장치들의 협력 훈련
  2. 기관 간 협력: 서로 다른 조직이 서로 다른 모델 아키텍처를 사용할 때의 지식 공유
  3. 엣지 컴퓨팅: 자원이 제한된 환경에서의 분산 학습

참고문헌

본 논문은 연합 학습, 지식 증류 및 연합 증류 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:

  • FedAvg 34: 연합 학습의 기초 연구
  • HeteroFL 6: 이질적 연합 학습의 대표적 방법
  • 지식 증류 관련 연구 14, 15, 44: 본 논문의 이론적 기초 제공
  • 연합 증류 방법 33, 49, 58: 본 논문의 직접적 비교 기준

이 논문은 이질적 연합 학습 분야에서 중요한 혁신을 제시하며, 기존 방법의 한계에 대한 심층 분석과 효과적인 해결책 제시를 통해 해당 분야의 발전에 가치 있는 기여를 합니다. 방법의 모듈식 설계와 우수한 실험 결과는 이를 매우 실용적인 가치를 지니게 합니다.