2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara

Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.

academic

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

基本信息

论文ID: 2510.13606
标题: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
作者: Riccardo Santi, Riccardo Salami, Simone Calderara (University of Modena and Reggio Emilia, Italy)
分类: cs.LG (Machine Learning)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13606v1

摘要

随着便携设备计算能力的提升和数据收集能力的增强，分布式AI模型训练成为可能，同时保护了参与客户端的隐私。然而，由于隐私法规和安全要求，必要时消除客户端对模型的贡献已成为强制性需求。清理过程必须满足特定的效率和时间要求。近年来的研究产生了多种知识移除方法，但这些方法需要数据持有者和过程协调者之间的多轮通信，这可能导致在移除过程结束前有效模型不可用，从而对系统用户造成服务中断。本文基于任务算术(Task Arithmetic)和神经切线核(Neural Tangent Kernel)，提出了一种快速移除客户端影响的创新解决方案。

研究背景与动机

问题定义

本研究要解决的核心问题是联邦遗忘(Federated Unlearning, FU)：在联邦学习环境中快速、有效地移除特定客户端对全局模型的贡献，同时保持模型性能和隐私保护。

问题重要性

法规遵循：GDPR、CCPA等隐私法规要求具备"被遗忘权"
安全需求：需要移除恶意或被污染的客户端数据贡献
医疗等敏感领域：患者数据撤销需求
服务连续性：传统方法需要多轮通信，导致模型长时间不可用

现有方法局限性

FedEraser等方法需要多轮通信才能产生有效的清理模型
在遗忘过程中模型不可用，对服务造成中断
对于高数据异构性环境下的鲁棒性不足

研究动机

提出能够在单轮通信内完成客户端遗忘的方法，最小化服务中断时间，同时在高数据异构性环境下保持良好性能。

核心贡献

提出SATA方法：基于任务算术和神经切线核的新型联邦遗忘方法，能够在单轮通信中完成客户端遗忘
创新的双任务向量机制：每个客户端维护两个独立的任务向量，其中独立任务向量专门用于遗忘操作
NTK增强的任务算术：利用神经切线核训练提高任务向量的解耦性，减少任务间干扰
全面实验验证：在Cars-196和Resisc45数据集上与多种基线方法进行对比，证明了方法的有效性

方法详解

任务定义

输入：

预训练模型参数 θ₀
K个客户端的本地数据集 {D₁, D₂, ..., Dₖ}
目标遗忘客户端 tgt

输出：

清理后的全局模型 θ̂clean，移除了目标客户端的影响
保持其他客户端贡献的模型性能

约束条件：

单轮通信完成遗忘
保护客户端隐私
维持模型在非目标客户端数据上的性能

模型架构

1. 双任务向量机制

每个客户端k维护两个独立的任务向量：

主任务向量 τₖ：参与分布式训练过程，贡献于全局模型计算
独立任务向量 τₖˢᵃ：保持隔离，不受其他客户端信息污染，专门用于未来的遗忘操作

2. 任务算术框架

基于任务算术理论，任务向量τₜ = θₜ - θ₀表示模型在特定任务上微调后的参数变化。组合多个任务向量：

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

其中λᵢ是标量权重系数。

3. 遗忘操作

当需要遗忘目标客户端tgt时，简单地从全局模型中减去其独立任务向量：

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. NTK增强

利用神经切线核在无限宽度极限下线性化神经网络学习动态的特性：

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

在NTK regime下训练提高任务向量的解耦性，最终模型可表示为：

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

技术创新点

单轮遗忘：与需要多轮通信的传统方法不同，SATA在单轮内完成遗忘
独立任务向量设计：通过维护独立的任务向量避免了重新训练的需要
NTK增强：提高任务向量间的解耦性，减少遗忘操作对其他客户端贡献的影响
理论基础：基于任务算术的坚实理论基础，提供了可解释的遗忘机制

实验设置

数据集

Cars-196：包含196个类别的汽车图像数据集，类别对应车辆品牌、型号和年份
Resisc45：包含45个类别的遥感图像数据集

两个数据集都使用Dirichlet分布进行非IID划分，参数β控制数据倾斜程度（β越小，数据分布越倾斜）。

评价指标

全局模型准确率：在测试集上的分类准确率
目标客户端遗忘效果：目标客户端测试数据上的准确率（越低越好）
目标客户端训练数据遗忘：目标客户端训练数据上的准确率（越低越好）

对比方法

Train From Scratch (TFS)：从预训练开始重新训练（上界基准）
Continue to Train (CTT)：仅排除目标客户端继续训练，利用灾难性遗忘
FedEraser：基于历史客户端更新重构全局模型的最知名FU方法

实现细节

模型：基于OpenAI CLIP的ViT-B/16，冻结分类头
优化器：AdamW
实验设置：
- Resisc45: 3轮FL + 3轮FU + 扩展PU轮次
- Cars-196: 10轮FL + 10轮FU + 5轮PU
超参数：通过网格搜索优化λtgt和学习率

实验结果

主要结果

遗忘效果（Table 1）

在目标客户端测试集准确率方面，SATA NTK在所有设置下都显著优于竞争方法：

Resisc45数据集：

β=0.05: FU阶段9.96% vs FedEraser的56.79%
β=0.1: FU阶段31.69% vs FedEraser的80.10%
β=0.5: FU阶段14.29% vs FedEraser的89.95%

Cars196数据集：

β=0.05: FU阶段1.48% vs FedEraser的56.04%
β=0.1: FU阶段6.36% vs FedEraser的58.32%
β=0.5: FU阶段0.27% vs FedEraser的69.93%

全局模型性能（Table 2）

虽然SATA在遗忘效果上表现优异，但在全局模型准确率上略低于其他方法，特别是在FU阶段：

性能下降分析：

在高异构性（低β值）环境下性能下降更明显
PU阶段后性能能够恢复到接近其他方法的水平

消融实验

NTK效果验证（Tables 3-4）

对比有无NTK训练的效果：

SATA vs SATA NTK：NTK训练始终提升遗忘性能
SAFA vs SAFA NTK：SAFA（Stand Alone FedAvg）在全局准确率上更高，但遗忘效果略差

不同遗忘策略对比

θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ：仅使用剩余客户端的独立任务向量
θ̂ - λtgt τₜₒₜˢᵃ：从全局模型中减去目标客户端贡献（SATA方法）

结果表明SATA方法在遗忘效果上更优。

案例分析

从Figure 1的可视化结果可以看出：

SATA在目标客户端准确率上实现了最低值
在全局准确率上虽有下降，但在PU阶段能够快速恢复
β值越高（数据异构性越低），方法性能越好

实验发现

单轮遗忘的有效性：SATA成功在单轮通信中实现有效遗忘
NTK的重要性：NTK训练显著提升任务算术效果
数据异构性的影响：高异构性环境下方法面临更大挑战
快速恢复能力：PU阶段能够快速恢复模型性能

相关工作

联邦学习算法

FedAvg：基础的参数平均聚合方法
FedProx：引入近端项处理异构性
SCAFFOLD：使用控制变量减轻客户端漂移
FedDC：通过估计和纠正本地漂移调整更新

机器遗忘

集中式遗忘：传统机器遗忘方法不适用于联邦设置
联邦遗忘：FedEraser、FedRecover、FedRecovery等方法

任务算术相关工作

预训练模型编辑的线性操作框架
NTK增强任务算术的理论基础

结论与讨论

主要结论

提出了首个能在单轮通信内完成联邦遗忘的有效方法
基于任务算术和NTK的理论框架具有良好的可解释性
在多种数据异构性设置下验证了方法的有效性
显著减少了遗忘过程中的服务中断时间

局限性

高异构性挑战：在高Dirichlet系数（低异构性）环境下性能受限
全局性能下降：遗忘过程中全局模型准确率有所下降
双向量开销：需要维护额外的独立任务向量，增加存储和计算成本
超参数敏感性：λtgt等参数需要仔细调优

未来方向

解决高Dirichlet系数下的性能限制
探索在其他模态和联邦设置中的适应性
进一步优化全局模型性能保持
研究自适应超参数选择方法

深度评价

优点

创新性强：首次实现单轮联邦遗忘，解决了实际应用中的关键问题
理论基础扎实：基于任务算术和NTK的坚实理论基础
实用价值高：显著减少服务中断时间，提高系统可用性
实验充分：在多个数据集和不同异构性设置下进行了全面评估
方法简洁：核心思想简单直观，易于理解和实现

不足

性能权衡：在遗忘效果和全局性能之间存在明显权衡
异构性限制：在某些异构性设置下性能不够理想
资源开销：双任务向量机制增加了额外的存储和计算成本
理论分析不足：缺乏对方法收敛性和理论保证的深入分析

影响力

学术贡献：为联邦遗忘领域提供了新的研究方向
实用价值：解决了实际部署中的关键问题，具有重要应用前景
技术启发：任务算术在联邦学习中的应用具有启发意义

适用场景

时间敏感系统：需要快速遗忘响应的实时服务
高频遗忘需求：经常需要移除客户端的动态环境
资源充足环境：能够承担双向量存储开销的系统
中低异构性环境：数据分布相对均匀的联邦学习场景

参考文献

本文引用了34篇相关文献，涵盖了联邦学习、机器遗忘、任务算术等多个相关领域的重要工作，为研究提供了充分的理论基础和对比基准。

总体评价：这是一篇在联邦遗忘领域具有重要贡献的论文，提出的单轮遗忘方法解决了实际应用中的关键问题。虽然在某些方面存在局限性，但其创新性和实用价值使其成为该领域的重要进展。