2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.
Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
academic

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

基本信息

  • 论文ID: 2507.10348
  • 标题: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
  • 作者: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
  • 分类: cs.LG cs.AI
  • 发表时间/会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2507.10348

摘要

模型异构联邦学习(Hetero-FL)因其能够在保持数据本地隐私的同时聚合异构模型知识而备受关注。为了更好地聚合客户端知识,集成蒸馏作为一种广泛使用且有效的技术,通常在全局聚合后用于增强全局模型性能。然而,简单地结合Hetero-FL和集成蒸馏并不总是产生良好结果,还可能导致训练过程不稳定。原因在于现有方法主要依赖logit蒸馏,虽然通过softmax预测具有模型无关性,但无法补偿异构模型产生的知识偏差。为解决这一挑战,本文提出了一种稳定高效的特征蒸馏方法FedFD,通过正交投影整合对齐的特征信息,更好地集成异构模型知识。

研究背景与动机

问题定义

本研究要解决的核心问题是在模型异构联邦学习中,如何有效地聚合来自不同架构客户端模型的知识。传统的联邦学习假设所有客户端使用相同的模型架构,但在实际IoT环境中,不同设备具有不同的计算资源和模型训练能力。

问题重要性

  1. 现实需求:IoT设备的异构性使得统一模型架构不现实
  2. 资源最大化:需要充分利用分布式计算资源
  3. 隐私保护:在保护数据隐私的同时实现知识共享

现有方法局限性

通过t-SNE可视化分析和实证实验,作者发现现有基于logit蒸馏的方法存在以下问题:

  1. 表示模糊:聚合的logit表示具有模糊的分类边界
  2. 训练不稳定:在异构模型设置下出现训练震荡
  3. 知识偏差:无法处理不同模型架构带来的特征空间差异

研究动机

基于对现有方法局限性的深入分析,作者提出使用特征蒸馏替代logit蒸馏,通过正交投影技术解决异构模型知识聚合中的偏差问题。

核心贡献

  1. 深入分析:提供了对模型无关联邦知识蒸馏的深入分析,识别出现有方法主要依赖logit蒸馏在异构模型下的局限性
  2. 新框架提出:提出了FedFD框架,这是一个即插即用的个性化增强模块,继承了传统蒸馏方法的隐私保护和效率特性
  3. 性能提升:在多个数据集和设置下进行了广泛实验,相比最先进方法在测试准确率上提升高达16.09%

方法详解

任务定义

考虑K个客户端的联邦学习问题,每个客户端k只能访问其本地私有数据集Dk={xk(i),yk(i)}D_k = \{x_k^{(i)}, y_k^{(i)}\}。目标是学习一个全局模型w,最小化总体经验损失:

minwL(w)=k=1KDkDLk(w)\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)

其中Lk(w)=1Dki=1DkLCE(w;xki,yki)L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)

模型架构

1. 分层特征对齐

FedFD首先将客户端模型按架构分组,对于每个蒸馏样本x,其在提取器wkdw_k^d上的特征表示为: ekd=f(wkd;x),k[1,K]e_k^d = f(w_k^d; x), \forall k \in [1,K]

然后将特征分为m组{S1d,...,Smd}\{S_1^d, ..., S_m^d\},每组包含相同结构的提取器。聚合同组内的特征表示: ed=1Sdi=1Sdeide^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d

2. 正交投影技术

为解决知识冲突问题,使用正交投影变换。通过反对称矩阵WdW_d生成投影层MdM_dexp(Wd)exp(Wd)T=exp(Wd+WdT)=exp(WdT+WdT)=I\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I

其中: exp(Wd)=I+Wd+Wd22!+Wd33!++Wdnn!\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}

3. 特征蒸馏损失

使用KL散度对齐特征表示: minw,{M2,...,Mm}1m1i=2mKL(Mi(wx),ei)\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)

技术创新点

  1. 从logit到特征:首次系统分析了logit蒸馏在异构模型下的问题,提出特征蒸馏作为替代方案
  2. 分层对齐策略:通过架构分组减少投影层数量,提高训练效率
  3. 正交投影技术:使用反对称矩阵生成正交投影,解决知识冲突同时保持计算效率
  4. 模块化设计:可与现有FL技术无缝集成

实验设置

数据集

  • CIFAR-10: 10类图像分类,50,000训练样本,10,000测试样本
  • CIFAR-100: 100类图像分类,50,000训练样本,10,000测试样本
  • Tiny-ImageNet: 200类图像分类,更大规模数据集

使用Dirichlet分布Dir(α)模拟数据异构性,α值越小表示数据分布越不均匀。

评价指标

  • 测试准确率:全局模型和本地模型的分类准确率
  • 通信效率:达到目标准确率所需的通信轮数
  • 收敛稳定性:训练过程的学习曲线分析

对比方法

  1. 经典FL方法:HeteroFL, MOON-hetero
  2. 同构FL方法:FedFusion-hetero, FedGen-hetero, DaFKD-hetero
  3. 异构FL方法:FedMD, MSFKD, FedGD

实现细节

  • 本地训练轮数E=10,通信轮数T=200,客户端数K=20,参与率r=0.4
  • 批大小64,权重衰减1e-4
  • 蒸馏学习率0.01,本地训练学习率0.001
  • 服务器模型使用ResNet-18,客户端模型有10个不同复杂度等级

实验结果

主要结果

在所有数据集和设置下,FedFD都取得了最佳性能:

数据集α值HeteroFLFedGDFedFD提升
CIFAR-101.087.53±0.1587.22±0.1389.64±0.232.11%
CIFAR-100.178.02±0.6579.31±0.7582.74±0.583.43%
CIFAR-1001.057.42±0.1258.03±0.2660.86±0.102.83%
Tiny-ImageNet1.029.88±2.7230.66±1.5934.24±1.134.36%

通信效率

FedFD在通信效率方面也表现优异:

  • CIFAR-10达到80%准确率:FedFD需20轮,HeteroFL需25轮
  • CIFAR-100达到60%准确率:FedFD需60轮,其他方法需171-200+轮

消融实验

验证了各组件的重要性:

  • 去除特征对齐:性能下降0.63-1.56%
  • 去除正交投影:性能下降1.68-2.43%
  • 去除两个组件:性能显著下降,回到FedFusion水平

稳定性分析

通过学习曲线对比发现:

  • 同构模型下:所有logit蒸馏方法都能快速稳定收敛
  • 异构模型下:logit蒸馏方法出现训练震荡,而FedFD保持稳定收敛

扩展性实验

在更极端的数据异构设置(α=0.01)和不同模型架构组合下,FedFD仍保持最优性能。

相关工作

联邦学习

从FedAvg的同构模型聚合发展到支持异构模型的方法,如HeteroFL通过部分参数聚合,NeFL通过嵌套结构适应不同深度。

知识蒸馏

包括logit蒸馏和特征蒸馏两大类。本文专注于特征蒸馏在联邦学习中的应用,通过正交投影和集成蒸馏突破现有限制。

联邦蒸馏

现有方法主要依赖logit蒸馏或需要额外的代理数据集。本文分析了这些方法在异构模型下的局限性。

结论与讨论

主要结论

  1. 问题识别:logit蒸馏在异构模型下存在知识偏差和训练不稳定问题
  2. 解决方案:特征蒸馏配合正交投影能有效解决异构模型知识聚合问题
  3. 性能验证:FedFD在多种设置下都取得了显著的性能提升

局限性

  1. 计算开销:需要为不同架构维护投影层,增加了服务器端计算成本
  2. 架构依赖:方法效果可能依赖于客户端模型架构的多样性程度
  3. 蒸馏数据:仍需要辅助数据集进行蒸馏,虽然可与无数据方法结合

未来方向

  1. 探索完全无数据的特征蒸馏方法
  2. 研究更高效的投影层设计
  3. 扩展到更多模态和任务类型

深度评价

优点

  1. 问题洞察深刻:通过可视化和实证分析清晰地识别了现有方法的根本问题
  2. 方法设计合理:正交投影技术的使用既解决了知识冲突又保持了计算效率
  3. 实验全面充分:涵盖多个数据集、不同异构程度、消融实验等
  4. 工程实用性强:模块化设计使得方法易于集成到现有FL框架

不足

  1. 理论分析不足:缺乏对为什么特征蒸馏优于logit蒸馏的理论解释
  2. 计算复杂度分析:未详细分析正交投影的计算开销
  3. 大规模验证有限:实验主要在中等规模数据集上进行

影响力

  1. 学术价值:为异构联邦学习提供了新的技术路径
  2. 实用价值:可直接应用于现实IoT场景
  3. 启发意义:为联邦学习中的知识蒸馏研究提供了新思路

适用场景

  1. IoT设备联邦学习:不同计算能力的设备协作训练
  2. 跨机构合作:不同组织使用不同模型架构时的知识共享
  3. 边缘计算:资源受限环境下的分布式学习

参考文献

本文引用了联邦学习、知识蒸馏和联邦蒸馏领域的重要工作,包括:

  • FedAvg 34: 联邦学习的奠基性工作
  • HeteroFL 6: 异构联邦学习的代表性方法
  • 知识蒸馏相关工作 14, 15, 44: 为本文提供了理论基础
  • 联邦蒸馏方法 33, 49, 58: 本文的直接对比基准

这篇论文在异构联邦学习领域提出了重要创新,通过深入分析现有方法的局限性并提出有效解决方案,为该领域的发展做出了有价值的贡献。方法的模块化设计和优异的实验结果使其具有很强的实用价值。