2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara
Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
academic

Verso la Rimozione Robusta della Conoscenza nell'Apprendimento Federato con Alta Eterogeneità dei Dati

Informazioni Fondamentali

  • ID Articolo: 2510.13606
  • Titolo: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
  • Autori: Riccardo Santi, Riccardo Salami, Simone Calderara (Università di Modena e Reggio Emilia, Italia)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.13606v1

Riassunto

Con l'aumento della capacità computazionale dei dispositivi portatili e delle capacità di raccolta dati, l'addestramento distribuito di modelli di IA è diventato possibile, proteggendo contemporaneamente la privacy dei client partecipanti. Tuttavia, a causa delle normative sulla privacy e dei requisiti di sicurezza, l'eliminazione dei contributi dei client al modello è diventata un requisito obbligatorio quando necessario. Il processo di pulizia deve soddisfare specifici requisiti di efficienza e tempistiche. La ricerca recente ha prodotto diversi metodi di rimozione della conoscenza, ma questi richiedono molteplici round di comunicazione tra il detentore dei dati e il coordinatore del processo, il che può comportare l'indisponibilità del modello efficace fino al completamento della rimozione, causando interruzioni di servizio per gli utenti del sistema. Questo articolo propone una soluzione innovativa per rimuovere rapidamente l'influenza dei client basata su Task Arithmetic e Neural Tangent Kernel.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è l'Oblio Federato (Federated Unlearning, FU): rimuovere rapidamente ed efficacemente i contributi di specifici client al modello globale nell'ambiente dell'apprendimento federato, mantenendo al contempo le prestazioni del modello e la protezione della privacy.

Importanza del Problema

  1. Conformità Normativa: Le normative sulla privacy come GDPR e CCPA richiedono il "diritto all'oblio"
  2. Requisiti di Sicurezza: Necessità di rimuovere i contributi dati da client dannosi o contaminati
  3. Domini Sensibili come la Sanità: Esigenze di revoca dei dati dei pazienti
  4. Continuità del Servizio: I metodi tradizionali richiedono molteplici round di comunicazione, causando l'indisponibilità prolungata del modello

Limitazioni dei Metodi Esistenti

  • Metodi come FedEraser richiedono molteplici round di comunicazione per produrre un modello di pulizia efficace
  • Il modello non è disponibile durante il processo di oblio, causando interruzioni di servizio
  • Robustezza insufficiente in ambienti con alta eterogeneità dei dati

Motivazione della Ricerca

Proporre un metodo in grado di completare l'oblio dei client in un singolo round di comunicazione, minimizzando il tempo di interruzione del servizio, mantenendo al contempo buone prestazioni in ambienti con alta eterogeneità dei dati.

Contributi Principali

  1. Proposta del Metodo SATA: Nuovo metodo di oblio federato basato su Task Arithmetic e Neural Tangent Kernel, in grado di completare l'oblio dei client in un singolo round di comunicazione
  2. Meccanismo Innovativo di Doppio Vettore di Compito: Ogni client mantiene due vettori di compito indipendenti, dove il vettore di compito indipendente è specificamente utilizzato per operazioni di oblio
  3. Task Arithmetic Potenziato da NTK: Utilizzo dell'addestramento Neural Tangent Kernel per migliorare il disaccoppiamento dei vettori di compito, riducendo le interferenze tra compiti
  4. Verifica Sperimentale Completa: Confronto con molteplici metodi di base sui dataset Cars-196 e Resisc45, dimostrando l'efficacia del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

  • Parametri del modello pre-addestrato θ₀
  • Dataset locali di K client {D₁, D₂, ..., Dₖ}
  • Client target per l'oblio tgt

Output:

  • Modello globale pulito θ̂clean, con rimosso l'impatto del client target
  • Mantenimento delle prestazioni del modello sui contributi degli altri client

Vincoli:

  • Completamento dell'oblio in un singolo round di comunicazione
  • Protezione della privacy dei client
  • Mantenimento delle prestazioni del modello sui dati dei client non-target

Architettura del Modello

1. Meccanismo di Doppio Vettore di Compito

Ogni client k mantiene due vettori di compito indipendenti:

  • Vettore di Compito Principale τₖ: Partecipa al processo di addestramento distribuito, contribuisce al calcolo del modello globale
  • Vettore di Compito Indipendente τₖˢᵃ: Rimane isolato, non contaminato da informazioni di altri client, specificamente utilizzato per future operazioni di oblio

2. Framework di Task Arithmetic

Basato sulla teoria di Task Arithmetic, il vettore di compito τₜ = θₜ - θ₀ rappresenta il cambiamento dei parametri del modello dopo il fine-tuning su un compito specifico. Combinazione di molteplici vettori di compito:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

dove λᵢ sono coefficienti di peso scalari.

3. Operazione di Oblio

Quando è necessario dimenticare il client target tgt, si sottrae semplicemente il suo vettore di compito indipendente dal modello globale:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. Potenziamento NTK

Utilizzo della proprietà del Neural Tangent Kernel di linearizzare la dinamica di apprendimento della rete neurale nel limite di larghezza infinita:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

L'addestramento nel regime NTK migliora il disaccoppiamento dei vettori di compito, e il modello finale può essere rappresentato come:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Punti di Innovazione Tecnica

  1. Oblio in Singolo Round: A differenza dei metodi tradizionali che richiedono molteplici round di comunicazione, SATA completa l'oblio in un singolo round
  2. Design del Vettore di Compito Indipendente: Mantenendo vettori di compito indipendenti, si evita la necessità di riaddestrare
  3. Potenziamento NTK: Migliora il disaccoppiamento tra vettori di compito, riducendo l'impatto dell'operazione di oblio sui contributi degli altri client
  4. Fondamento Teorico: Basato su solide fondamenta teoriche di Task Arithmetic, fornisce un meccanismo di oblio interpretabile

Configurazione Sperimentale

Dataset

  1. Cars-196: Dataset di immagini di automobili contenente 196 classi, con classi corrispondenti a marche, modelli e anni di veicoli
  2. Resisc45: Dataset di immagini di telerilevamento contenente 45 classi

Entrambi i dataset utilizzano la distribuzione di Dirichlet per la partizione non-IID, con il parametro β che controlla il grado di asimmetria dei dati (β più piccolo significa distribuzione dati più asimmetrica).

Metriche di Valutazione

  1. Accuratezza del Modello Globale: Accuratezza di classificazione sul set di test
  2. Effetto di Oblio del Client Target: Accuratezza sui dati di test del client target (più basso è meglio)
  3. Oblio dei Dati di Addestramento del Client Target: Accuratezza sui dati di addestramento del client target (più basso è meglio)

Metodi di Confronto

  1. Train From Scratch (TFS): Riaddestrare da zero a partire dal pre-addestramento (benchmark superiore)
  2. Continue to Train (CTT): Continuare l'addestramento escludendo solo il client target, sfruttando l'oblio catastrofico
  3. FedEraser: Il metodo di oblio federato più noto, basato sulla ricostruzione del modello globale da aggiornamenti storici dei client

Dettagli di Implementazione

  • Modello: ViT-B/16 basato su OpenAI CLIP, con testa di classificazione congelata
  • Ottimizzatore: AdamW
  • Configurazione Sperimentale:
    • Resisc45: 3 round FL + 3 round FU + round PU estesi
    • Cars-196: 10 round FL + 10 round FU + 5 round PU
  • Iperparametri: Ottimizzati tramite ricerca in griglia per λtgt e tasso di apprendimento

Risultati Sperimentali

Risultati Principali

Effetto di Oblio (Tabella 1)

Per quanto riguarda l'accuratezza sul set di test del client target, SATA NTK supera significativamente i metodi concorrenti in tutte le configurazioni:

Dataset Resisc45:

  • β=0.05: 9.96% nella fase FU vs 56.79% di FedEraser
  • β=0.1: 31.69% nella fase FU vs 80.10% di FedEraser
  • β=0.5: 14.29% nella fase FU vs 89.95% di FedEraser

Dataset Cars196:

  • β=0.05: 1.48% nella fase FU vs 56.04% di FedEraser
  • β=0.1: 6.36% nella fase FU vs 58.32% di FedEraser
  • β=0.5: 0.27% nella fase FU vs 69.93% di FedEraser

Prestazioni del Modello Globale (Tabella 2)

Sebbene SATA mostri prestazioni eccellenti nell'effetto di oblio, l'accuratezza del modello globale è leggermente inferiore rispetto ad altri metodi, in particolare nella fase FU:

Analisi della Degradazione delle Prestazioni:

  • La degradazione delle prestazioni è più evidente in ambienti ad alta eterogeneità (valori β bassi)
  • Le prestazioni possono recuperare a livelli prossimi ad altri metodi dopo la fase PU

Esperimenti di Ablazione

Verifica dell'Effetto NTK (Tabelle 3-4)

Confronto degli effetti con e senza addestramento NTK:

  • SATA vs SATA NTK: L'addestramento NTK migliora sempre le prestazioni di oblio
  • SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) ha maggiore accuratezza globale, ma effetto di oblio leggermente inferiore

Confronto di Diverse Strategie di Oblio

  1. θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Utilizzo solo dei vettori di compito indipendenti dei client rimanenti
  2. θ̂ - λtgt τₜₒₜˢᵃ: Sottrazione del contributo del client target dal modello globale (metodo SATA)

I risultati mostrano che il metodo SATA è superiore nell'effetto di oblio.

Analisi di Casi

Dai risultati di visualizzazione nella Figura 1 si può osservare:

  • SATA raggiunge il valore più basso nell'accuratezza del client target
  • Sebbene vi sia un calo nell'accuratezza globale, il metodo può recuperare rapidamente nella fase PU
  • Migliori prestazioni del metodo con valori β più alti (eterogeneità dati più bassa)

Scoperte Sperimentali

  1. Efficacia dell'Oblio in Singolo Round: SATA completa con successo l'oblio efficace in un singolo round di comunicazione
  2. Importanza di NTK: L'addestramento NTK migliora significativamente l'effetto di Task Arithmetic
  3. Impatto dell'Eterogeneità dei Dati: Il metodo affronta sfide maggiori in ambienti ad alta eterogeneità
  4. Capacità di Recupero Rapido: La fase PU consente il recupero rapido delle prestazioni del modello

Lavori Correlati

Algoritmi di Apprendimento Federato

  • FedAvg: Metodo di aggregazione di base per la media dei parametri
  • FedProx: Introduce un termine prossimale per gestire l'eterogeneità
  • SCAFFOLD: Utilizza variabili di controllo per ridurre la deriva dei client
  • FedDC: Regola gli aggiornamenti stimando e correggendo la deriva locale

Oblio Automatico

  • Oblio Centralizzato: I metodi tradizionali di machine unlearning non sono applicabili alle impostazioni federati
  • Oblio Federato: Metodi come FedEraser, FedRecover, FedRecovery

Lavori Correlati su Task Arithmetic

  • Framework di operazioni lineari per l'editing di modelli pre-addestrati
  • Fondamenti teorici di Task Arithmetic potenziato da NTK

Conclusioni e Discussione

Conclusioni Principali

  1. Propone il primo metodo efficace in grado di completare l'oblio federato in un singolo round di comunicazione
  2. Il framework teorico basato su Task Arithmetic e NTK ha buona interpretabilità
  3. Verifica l'efficacia del metodo in diverse impostazioni di eterogeneità dei dati
  4. Riduce significativamente il tempo di interruzione del servizio durante il processo di oblio

Limitazioni

  1. Sfida dell'Alta Eterogeneità: Le prestazioni sono limitate in ambienti con coefficiente di Dirichlet alto (bassa eterogeneità)
  2. Degradazione delle Prestazioni Globali: L'accuratezza del modello globale diminuisce durante il processo di oblio
  3. Overhead del Doppio Vettore: La necessità di mantenere vettori di compito indipendenti aggiuntivi aumenta i costi di archiviazione e calcolo
  4. Sensibilità degli Iperparametri: Parametri come λtgt richiedono un'attenta ottimizzazione

Direzioni Future

  1. Risolvere i limiti di prestazione con coefficiente di Dirichlet alto
  2. Esplorare l'adattabilità in altre modalità e impostazioni federati
  3. Ottimizzare ulteriormente il mantenimento delle prestazioni del modello globale
  4. Ricercare metodi di selezione adattiva degli iperparametri

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Prima implementazione dell'oblio federato in singolo round, risolvendo un problema critico nelle applicazioni pratiche
  2. Fondamenti Teorici Solidi: Basato su solide fondamenta teoriche di Task Arithmetic e NTK
  3. Alto Valore Pratico: Riduce significativamente il tempo di interruzione del servizio, migliorando la disponibilità del sistema
  4. Esperimenti Completi: Valutazione completa su molteplici dataset e diverse impostazioni di eterogeneità
  5. Metodo Semplice: L'idea centrale è semplice e intuitiva, facile da comprendere e implementare

Insufficienze

  1. Compromesso di Prestazioni: Esiste un compromesso evidente tra l'effetto di oblio e le prestazioni globali
  2. Limitazione dell'Eterogeneità: Le prestazioni non sono ideali in alcune impostazioni di eterogeneità
  3. Overhead di Risorse: Il meccanismo di doppio vettore di compito aumenta i costi di archiviazione e calcolo aggiuntivi
  4. Analisi Teorica Insufficiente: Manca un'analisi approfondita sulla convergenza del metodo e sulle garanzie teoriche

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo dell'oblio federato
  2. Valore Pratico: Risolve problemi critici nella distribuzione pratica, con importanti prospettive di applicazione
  3. Ispirazione Tecnica: L'applicazione di Task Arithmetic nell'apprendimento federato ha valore ispirativo

Scenari Applicabili

  1. Sistemi Sensibili al Tempo: Servizi in tempo reale che richiedono risposte di oblio rapide
  2. Ambienti con Frequenti Esigenze di Oblio: Ambienti dinamici che richiedono frequentemente la rimozione di client
  3. Ambienti con Risorse Sufficienti: Sistemi in grado di sostenere l'overhead di archiviazione di doppi vettori
  4. Scenari di Apprendimento Federato con Eterogeneità Media-Bassa: Scenari con distribuzione dati relativamente uniforme

Riferimenti Bibliografici

Questo articolo cita 34 articoli correlati, coprendo importanti lavori in molteplici campi correlati come l'apprendimento federato, l'oblio automatico e Task Arithmetic, fornendo una base teorica sufficiente e benchmark di confronto per la ricerca.


Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo dell'oblio federato, il cui metodo di oblio in singolo round risolve problemi critici nelle applicazioni pratiche. Sebbene presenti limitazioni in alcuni aspetti, la sua innovazione e valore pratico lo rendono un progresso importante in questo campo.