2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara

Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.

academic

Verso la Rimozione Robusta della Conoscenza nell'Apprendimento Federato con Alta Eterogeneità dei Dati

Informazioni Fondamentali

ID Articolo: 2510.13606
Titolo: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
Autori: Riccardo Santi, Riccardo Salami, Simone Calderara (Università di Modena e Reggio Emilia, Italia)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.13606v1

Riassunto

Con l'aumento della capacità computazionale dei dispositivi portatili e delle capacità di raccolta dati, l'addestramento distribuito di modelli di IA è diventato possibile, proteggendo contemporaneamente la privacy dei client partecipanti. Tuttavia, a causa delle normative sulla privacy e dei requisiti di sicurezza, l'eliminazione dei contributi dei client al modello è diventata un requisito obbligatorio quando necessario. Il processo di pulizia deve soddisfare specifici requisiti di efficienza e tempistiche. La ricerca recente ha prodotto diversi metodi di rimozione della conoscenza, ma questi richiedono molteplici round di comunicazione tra il detentore dei dati e il coordinatore del processo, il che può comportare l'indisponibilità del modello efficace fino al completamento della rimozione, causando interruzioni di servizio per gli utenti del sistema. Questo articolo propone una soluzione innovativa per rimuovere rapidamente l'influenza dei client basata su Task Arithmetic e Neural Tangent Kernel.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è l'Oblio Federato (Federated Unlearning, FU): rimuovere rapidamente ed efficacemente i contributi di specifici client al modello globale nell'ambiente dell'apprendimento federato, mantenendo al contempo le prestazioni del modello e la protezione della privacy.

Importanza del Problema

Conformità Normativa: Le normative sulla privacy come GDPR e CCPA richiedono il "diritto all'oblio"
Requisiti di Sicurezza: Necessità di rimuovere i contributi dati da client dannosi o contaminati
Domini Sensibili come la Sanità: Esigenze di revoca dei dati dei pazienti
Continuità del Servizio: I metodi tradizionali richiedono molteplici round di comunicazione, causando l'indisponibilità prolungata del modello

Limitazioni dei Metodi Esistenti

Metodi come FedEraser richiedono molteplici round di comunicazione per produrre un modello di pulizia efficace
Il modello non è disponibile durante il processo di oblio, causando interruzioni di servizio
Robustezza insufficiente in ambienti con alta eterogeneità dei dati

Motivazione della Ricerca

Proporre un metodo in grado di completare l'oblio dei client in un singolo round di comunicazione, minimizzando il tempo di interruzione del servizio, mantenendo al contempo buone prestazioni in ambienti con alta eterogeneità dei dati.

Contributi Principali

Proposta del Metodo SATA: Nuovo metodo di oblio federato basato su Task Arithmetic e Neural Tangent Kernel, in grado di completare l'oblio dei client in un singolo round di comunicazione
Meccanismo Innovativo di Doppio Vettore di Compito: Ogni client mantiene due vettori di compito indipendenti, dove il vettore di compito indipendente è specificamente utilizzato per operazioni di oblio
Task Arithmetic Potenziato da NTK: Utilizzo dell'addestramento Neural Tangent Kernel per migliorare il disaccoppiamento dei vettori di compito, riducendo le interferenze tra compiti
Verifica Sperimentale Completa: Confronto con molteplici metodi di base sui dataset Cars-196 e Resisc45, dimostrando l'efficacia del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

Parametri del modello pre-addestrato θ₀
Dataset locali di K client {D₁, D₂, ..., Dₖ}
Client target per l'oblio tgt

Output:

Modello globale pulito θ̂clean, con rimosso l'impatto del client target
Mantenimento delle prestazioni del modello sui contributi degli altri client

Vincoli:

Completamento dell'oblio in un singolo round di comunicazione
Protezione della privacy dei client
Mantenimento delle prestazioni del modello sui dati dei client non-target

Architettura del Modello

1. Meccanismo di Doppio Vettore di Compito

Ogni client k mantiene due vettori di compito indipendenti:

Vettore di Compito Principale τₖ: Partecipa al processo di addestramento distribuito, contribuisce al calcolo del modello globale
Vettore di Compito Indipendente τₖˢᵃ: Rimane isolato, non contaminato da informazioni di altri client, specificamente utilizzato per future operazioni di oblio

2. Framework di Task Arithmetic

Basato sulla teoria di Task Arithmetic, il vettore di compito τₜ = θₜ - θ₀ rappresenta il cambiamento dei parametri del modello dopo il fine-tuning su un compito specifico. Combinazione di molteplici vettori di compito:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

dove λᵢ sono coefficienti di peso scalari.

3. Operazione di Oblio

Quando è necessario dimenticare il client target tgt, si sottrae semplicemente il suo vettore di compito indipendente dal modello globale:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. Potenziamento NTK

Utilizzo della proprietà del Neural Tangent Kernel di linearizzare la dinamica di apprendimento della rete neurale nel limite di larghezza infinita:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

L'addestramento nel regime NTK migliora il disaccoppiamento dei vettori di compito, e il modello finale può essere rappresentato come:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Punti di Innovazione Tecnica

Oblio in Singolo Round: A differenza dei metodi tradizionali che richiedono molteplici round di comunicazione, SATA completa l'oblio in un singolo round
Design del Vettore di Compito Indipendente: Mantenendo vettori di compito indipendenti, si evita la necessità di riaddestrare
Potenziamento NTK: Migliora il disaccoppiamento tra vettori di compito, riducendo l'impatto dell'operazione di oblio sui contributi degli altri client
Fondamento Teorico: Basato su solide fondamenta teoriche di Task Arithmetic, fornisce un meccanismo di oblio interpretabile

Configurazione Sperimentale

Dataset

Cars-196: Dataset di immagini di automobili contenente 196 classi, con classi corrispondenti a marche, modelli e anni di veicoli
Resisc45: Dataset di immagini di telerilevamento contenente 45 classi

Entrambi i dataset utilizzano la distribuzione di Dirichlet per la partizione non-IID, con il parametro β che controlla il grado di asimmetria dei dati (β più piccolo significa distribuzione dati più asimmetrica).

Metriche di Valutazione

Accuratezza del Modello Globale: Accuratezza di classificazione sul set di test
Effetto di Oblio del Client Target: Accuratezza sui dati di test del client target (più basso è meglio)
Oblio dei Dati di Addestramento del Client Target: Accuratezza sui dati di addestramento del client target (più basso è meglio)

Metodi di Confronto

Train From Scratch (TFS): Riaddestrare da zero a partire dal pre-addestramento (benchmark superiore)
Continue to Train (CTT): Continuare l'addestramento escludendo solo il client target, sfruttando l'oblio catastrofico
FedEraser: Il metodo di oblio federato più noto, basato sulla ricostruzione del modello globale da aggiornamenti storici dei client

Dettagli di Implementazione

Modello: ViT-B/16 basato su OpenAI CLIP, con testa di classificazione congelata
Ottimizzatore: AdamW
Configurazione Sperimentale:
- Resisc45: 3 round FL + 3 round FU + round PU estesi
- Cars-196: 10 round FL + 10 round FU + 5 round PU
Iperparametri: Ottimizzati tramite ricerca in griglia per λtgt e tasso di apprendimento

Risultati Sperimentali

Risultati Principali

Effetto di Oblio (Tabella 1)

Per quanto riguarda l'accuratezza sul set di test del client target, SATA NTK supera significativamente i metodi concorrenti in tutte le configurazioni:

Dataset Resisc45:

β=0.05: 9.96% nella fase FU vs 56.79% di FedEraser
β=0.1: 31.69% nella fase FU vs 80.10% di FedEraser
β=0.5: 14.29% nella fase FU vs 89.95% di FedEraser

Dataset Cars196:

β=0.05: 1.48% nella fase FU vs 56.04% di FedEraser
β=0.1: 6.36% nella fase FU vs 58.32% di FedEraser
β=0.5: 0.27% nella fase FU vs 69.93% di FedEraser

Prestazioni del Modello Globale (Tabella 2)

Sebbene SATA mostri prestazioni eccellenti nell'effetto di oblio, l'accuratezza del modello globale è leggermente inferiore rispetto ad altri metodi, in particolare nella fase FU:

Analisi della Degradazione delle Prestazioni:

La degradazione delle prestazioni è più evidente in ambienti ad alta eterogeneità (valori β bassi)
Le prestazioni possono recuperare a livelli prossimi ad altri metodi dopo la fase PU

Esperimenti di Ablazione

Verifica dell'Effetto NTK (Tabelle 3-4)

Confronto degli effetti con e senza addestramento NTK:

SATA vs SATA NTK: L'addestramento NTK migliora sempre le prestazioni di oblio
SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) ha maggiore accuratezza globale, ma effetto di oblio leggermente inferiore

Confronto di Diverse Strategie di Oblio

θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Utilizzo solo dei vettori di compito indipendenti dei client rimanenti
θ̂ - λtgt τₜₒₜˢᵃ: Sottrazione del contributo del client target dal modello globale (metodo SATA)

I risultati mostrano che il metodo SATA è superiore nell'effetto di oblio.

Analisi di Casi

Dai risultati di visualizzazione nella Figura 1 si può osservare:

SATA raggiunge il valore più basso nell'accuratezza del client target
Sebbene vi sia un calo nell'accuratezza globale, il metodo può recuperare rapidamente nella fase PU
Migliori prestazioni del metodo con valori β più alti (eterogeneità dati più bassa)

Scoperte Sperimentali

Efficacia dell'Oblio in Singolo Round: SATA completa con successo l'oblio efficace in un singolo round di comunicazione
Importanza di NTK: L'addestramento NTK migliora significativamente l'effetto di Task Arithmetic
Impatto dell'Eterogeneità dei Dati: Il metodo affronta sfide maggiori in ambienti ad alta eterogeneità
Capacità di Recupero Rapido: La fase PU consente il recupero rapido delle prestazioni del modello

Lavori Correlati

Algoritmi di Apprendimento Federato

FedAvg: Metodo di aggregazione di base per la media dei parametri
FedProx: Introduce un termine prossimale per gestire l'eterogeneità
SCAFFOLD: Utilizza variabili di controllo per ridurre la deriva dei client
FedDC: Regola gli aggiornamenti stimando e correggendo la deriva locale

Oblio Automatico

Oblio Centralizzato: I metodi tradizionali di machine unlearning non sono applicabili alle impostazioni federati
Oblio Federato: Metodi come FedEraser, FedRecover, FedRecovery

Lavori Correlati su Task Arithmetic

Framework di operazioni lineari per l'editing di modelli pre-addestrati
Fondamenti teorici di Task Arithmetic potenziato da NTK

Conclusioni e Discussione

Conclusioni Principali

Propone il primo metodo efficace in grado di completare l'oblio federato in un singolo round di comunicazione
Il framework teorico basato su Task Arithmetic e NTK ha buona interpretabilità
Verifica l'efficacia del metodo in diverse impostazioni di eterogeneità dei dati
Riduce significativamente il tempo di interruzione del servizio durante il processo di oblio

Limitazioni

Sfida dell'Alta Eterogeneità: Le prestazioni sono limitate in ambienti con coefficiente di Dirichlet alto (bassa eterogeneità)
Degradazione delle Prestazioni Globali: L'accuratezza del modello globale diminuisce durante il processo di oblio
Overhead del Doppio Vettore: La necessità di mantenere vettori di compito indipendenti aggiuntivi aumenta i costi di archiviazione e calcolo
Sensibilità degli Iperparametri: Parametri come λtgt richiedono un'attenta ottimizzazione

Direzioni Future

Risolvere i limiti di prestazione con coefficiente di Dirichlet alto
Esplorare l'adattabilità in altre modalità e impostazioni federati
Ottimizzare ulteriormente il mantenimento delle prestazioni del modello globale
Ricercare metodi di selezione adattiva degli iperparametri

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Prima implementazione dell'oblio federato in singolo round, risolvendo un problema critico nelle applicazioni pratiche
Fondamenti Teorici Solidi: Basato su solide fondamenta teoriche di Task Arithmetic e NTK
Alto Valore Pratico: Riduce significativamente il tempo di interruzione del servizio, migliorando la disponibilità del sistema
Esperimenti Completi: Valutazione completa su molteplici dataset e diverse impostazioni di eterogeneità
Metodo Semplice: L'idea centrale è semplice e intuitiva, facile da comprendere e implementare

Insufficienze

Compromesso di Prestazioni: Esiste un compromesso evidente tra l'effetto di oblio e le prestazioni globali
Limitazione dell'Eterogeneità: Le prestazioni non sono ideali in alcune impostazioni di eterogeneità
Overhead di Risorse: Il meccanismo di doppio vettore di compito aumenta i costi di archiviazione e calcolo aggiuntivi
Analisi Teorica Insufficiente: Manca un'analisi approfondita sulla convergenza del metodo e sulle garanzie teoriche

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo dell'oblio federato
Valore Pratico: Risolve problemi critici nella distribuzione pratica, con importanti prospettive di applicazione
Ispirazione Tecnica: L'applicazione di Task Arithmetic nell'apprendimento federato ha valore ispirativo

Scenari Applicabili

Sistemi Sensibili al Tempo: Servizi in tempo reale che richiedono risposte di oblio rapide
Ambienti con Frequenti Esigenze di Oblio: Ambienti dinamici che richiedono frequentemente la rimozione di client
Ambienti con Risorse Sufficienti: Sistemi in grado di sostenere l'overhead di archiviazione di doppi vettori
Scenari di Apprendimento Federato con Eterogeneità Media-Bassa: Scenari con distribuzione dati relativamente uniforme

Riferimenti Bibliografici

Questo articolo cita 34 articoli correlati, coprendo importanti lavori in molteplici campi correlati come l'apprendimento federato, l'oblio automatico e Task Arithmetic, fornendo una base teorica sufficiente e benchmark di confronto per la ricerca.

Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo dell'oblio federato, il cui metodo di oblio in singolo round risolve problemi critici nelle applicazioni pratiche. Sebbene presenti limitazioni in alcuni aspetti, la sua innovazione e valore pratico lo rendono un progresso importante in questo campo.