2025-11-16T12:19:12.111003

Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity

Santi, Salami, Calderara

Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.

academic

Auf dem Weg zu robustem Wissensentzug im föderalen Lernen mit hoher Datenheterogenität

Grundlegende Informationen

Paper-ID: 2510.13606
Titel: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
Autoren: Riccardo Santi, Riccardo Salami, Simone Calderara (Universität Modena und Reggio Emilia, Italien)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.13606v1

Zusammenfassung

Mit der verbesserten Rechenleistung tragbarer Geräte und erweiterten Datenerfassungsfähigkeiten ist das verteilte Training von KI-Modellen möglich geworden, während gleichzeitig die Privatsphäre der teilnehmenden Clients geschützt wird. Aufgrund von Datenschutzbestimmungen und Sicherheitsanforderungen ist es jedoch erforderlich geworden, die Beiträge von Clients zum Modell bei Bedarf zu löschen. Der Bereinigungsprozess muss spezifische Effizienz- und Zeitanforderungen erfüllen. Jüngste Forschungen haben verschiedene Wissensentzugsmethoden hervorgebracht, diese erfordern jedoch mehrere Kommunationsrunden zwischen dem Dateninhaber und dem Prozesskoordinator, was dazu führen kann, dass das Modell bis zum Ende des Entzugsprozesses nicht verfügbar ist und somit zu Serviceunterbrechungen für Systembenutzer führt. Basierend auf Task Arithmetic und Neural Tangent Kernel (NTK) schlägt dieses Papier eine innovative Lösung zur schnellen Entfernung von Client-Einflüssen vor.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist das föderale Vergessen (Federated Unlearning, FU): schnelle und effektive Entfernung der Beiträge eines bestimmten Clients zum globalen Modell in einer föderalen Lernumgebung, während gleichzeitig die Modellleistung und der Datenschutz gewährleistet werden.

Bedeutung des Problems

Einhaltung von Vorschriften: Datenschutzbestimmungen wie GDPR und CCPA erfordern das "Recht auf Vergessenwerden"
Sicherheitsanforderungen: Notwendigkeit, Beiträge böswilliger oder kontaminierter Clients zu entfernen
Sensible Bereiche wie Gesundheitswesen: Anforderungen zur Widerrufung von Patientendaten
Servicekontinuität: Traditionelle Methoden erfordern mehrere Kommunationsrunden, was zu längeren Modellausfallzeiten führt

Einschränkungen bestehender Methoden

FedEraser und ähnliche Methoden erfordern mehrere Kommunationsrunden zur Erzeugung eines effektiven Bereinigungsmodells
Das Modell ist während des Vergessungsprozesses nicht verfügbar, was zu Serviceunterbrechungen führt
Unzureichende Robustheit in Umgebungen mit hoher Datenheterogenität

Forschungsmotivation

Entwicklung einer Methode, die Client-Vergessen innerhalb einer einzigen Kommunationsrunde durchführen kann, um die Serviceunterbrechungszeit zu minimieren und gleichzeitig eine gute Leistung in Umgebungen mit hoher Datenheterogenität zu bewahren.

Kernbeiträge

Vorschlag der SATA-Methode: Neue föderale Vergessungsmethode basierend auf Task Arithmetic und Neural Tangent Kernel, die Client-Vergessen in einer einzigen Kommunationsrunde ermöglicht
Innovativer Dual-Task-Vector-Mechanismus: Jeder Client verwaltet zwei unabhängige Task-Vektoren, wobei der unabhängige Task-Vektor speziell für Vergessungsoperationen verwendet wird
NTK-verstärkte Task Arithmetic: Nutzung von Neural Tangent Kernel-Training zur Verbesserung der Entkopplung von Task-Vektoren und Verringerung von Task-Interferenzen
Umfassende experimentelle Validierung: Vergleich mit mehreren Baseline-Methoden auf den Datensätzen Cars-196 und Resisc45, um die Wirksamkeit der Methode zu demonstrieren

Methodische Details

Aufgabendefinition

Eingabe:

Vortrainierte Modellparameter θ₀
Lokale Datensätze von K Clients {D₁, D₂, ..., Dₖ}
Ziel-Client zum Vergessen: tgt

Ausgabe:

Bereinigtes globales Modell θ̂clean, das den Einfluss des Ziel-Clients entfernt hat
Modellleistung, die die Beiträge anderer Clients bewahrt

Einschränkungen:

Vergessen in einer einzigen Kommunationsrunde
Schutz der Client-Privatsphäre
Aufrechterhaltung der Modellleistung auf Daten von Nicht-Ziel-Clients

Modellarchitektur

1. Dual-Task-Vector-Mechanismus

Jeder Client k verwaltet zwei unabhängige Task-Vektoren:

Primärer Task-Vektor τₖ: Beteiligt sich am verteilten Trainingsprozess und trägt zur globalen Modellberechnung bei
Unabhängiger Task-Vektor τₖˢᵃ: Bleibt isoliert, nicht durch Informationen anderer Clients kontaminiert, speziell für zukünftige Vergessungsoperationen

2. Task Arithmetic Framework

Basierend auf der Task Arithmetic Theorie, wobei der Task-Vektor τₜ = θₜ - θ₀ die Parameteränderung des Modells nach dem Feintuning auf einer bestimmten Aufgabe darstellt. Kombination mehrerer Task-Vektoren:

θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ

wobei λᵢ skalare Gewichtungskoeffizienten sind.

3. Vergessungsoperation

Wenn der Ziel-Client tgt vergessen werden muss, wird einfach sein unabhängiger Task-Vektor vom globalen Modell subtrahiert:

θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ

4. NTK-Verstärkung

Nutzung des Neural Tangent Kernel, um die Lernungsdynamik neuronaler Netze im Grenzfall unendlicher Breite zu linearisieren:

flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)

Training im NTK-Regime verbessert die Entkopplung von Task-Vektoren, wobei das endgültige Modell dargestellt werden kann als:

flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)

Technische Innovationen

Einrundiges Vergessen: Im Gegensatz zu traditionellen Methoden, die mehrere Kommunationsrunden erfordern, wird das Vergessen bei SATA in einer Runde durchgeführt
Design unabhängiger Task-Vektoren: Durch die Verwaltung unabhängiger Task-Vektoren wird die Notwendigkeit eines Neutrainings vermieden
NTK-Verstärkung: Verbessert die Entkopplung zwischen Task-Vektoren und verringert die Auswirkungen der Vergessungsoperation auf die Beiträge anderer Clients
Theoretische Grundlage: Basierend auf Task Arithmetic mit einer soliden theoretischen Grundlage, die einen interpretierbaren Vergessungsmechanismus bietet

Experimentelle Einrichtung

Datensätze

Cars-196: Ein Automobilbilddatensatz mit 196 Klassen, wobei Klassen Fahrzeugmarken, Modellen und Jahren entsprechen
Resisc45: Ein Fernerkundungsbilddatensatz mit 45 Klassen

Beide Datensätze werden mit Dirichlet-Verteilung in nicht-IID-Weise aufgeteilt, wobei der Parameter β den Grad der Datenschiefe steuert (je kleiner β, desto schiefer die Verteilung).

Bewertungsmetriken

Genauigkeit des globalen Modells: Klassifizierungsgenauigkeit auf dem Testdatensatz
Vergessungseffekt des Ziel-Clients: Genauigkeit auf den Testdaten des Ziel-Clients (je niedriger, desto besser)
Vergessen der Trainingsdaten des Ziel-Clients: Genauigkeit auf den Trainingsdaten des Ziel-Clients (je niedriger, desto besser)

Vergleichsmethoden

Train From Scratch (TFS): Neutraining ab dem Vortraining (obere Grenze Baseline)
Continue to Train (CTT): Weiteres Training mit Ausschluss des Ziel-Clients unter Nutzung katastrophalen Vergessens
FedEraser: Die bekannteste FU-Methode, die das globale Modell basierend auf historischen Client-Updates rekonstruiert

Implementierungsdetails

Modell: ViT-B/16 basierend auf OpenAI CLIP mit eingefrorener Klassifizierungskopf
Optimierer: AdamW
Experimentelle Einrichtung:
- Resisc45: 3 FL-Runden + 3 FU-Runden + erweiterte PU-Runden
- Cars-196: 10 FL-Runden + 10 FU-Runden + 5 PU-Runden
Hyperparameter: Optimiert durch Gittersuche für λtgt und Lernrate

Experimentelle Ergebnisse

Hauptergebnisse

Vergessungseffekt (Tabelle 1)

Bei der Genauigkeit des Ziel-Clients auf dem Testdatensatz übertrifft SATA NTK alle konkurrierenden Methoden in allen Einstellungen deutlich:

Resisc45-Datensatz:

β=0.05: FU-Phase 9,96% vs FedEraser 56,79%
β=0.1: FU-Phase 31,69% vs FedEraser 80,10%
β=0.5: FU-Phase 14,29% vs FedEraser 89,95%

Cars196-Datensatz:

β=0.05: FU-Phase 1,48% vs FedEraser 56,04%
β=0.1: FU-Phase 6,36% vs FedEraser 58,32%
β=0.5: FU-Phase 0,27% vs FedEraser 69,93%

Globale Modellleistung (Tabelle 2)

Obwohl SATA bei der Vergessungseffektivität hervorragende Leistungen zeigt, ist die globale Modellgenauigkeit leicht niedriger als bei anderen Methoden, besonders in der FU-Phase:

Leistungsabfallanalyse:

Der Leistungsabfall ist in Umgebungen mit hoher Heterogenität (niedrige β-Werte) ausgeprägter
Nach der PU-Phase kann die Leistung auf ein Niveau nahe bei anderen Methoden wiederhergestellt werden

Ablationsstudien

NTK-Effekt-Validierung (Tabellen 3-4)

Vergleich der Effekte mit und ohne NTK-Training:

SATA vs SATA NTK: NTK-Training verbessert konsistent die Vergessungsleistung
SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) zeigt höhere globale Genauigkeit, aber leicht schlechtere Vergessungseffekte

Vergleich verschiedener Vergessungsstrategien

θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Verwendung nur der unabhängigen Task-Vektoren verbleibender Clients
θ̂ - λtgt τₜₒₜˢᵃ: Subtraktion des Ziel-Client-Beitrags vom globalen Modell (SATA-Methode)

Die Ergebnisse zeigen, dass die SATA-Methode bei der Vergessungseffektivität überlegen ist.

Fallstudienanalyse

Aus den Visualisierungsergebnissen in Abbildung 1 ist ersichtlich:

SATA erreicht den niedrigsten Wert bei der Genauigkeit des Ziel-Clients
Obwohl die globale Genauigkeit sinkt, kann sie in der PU-Phase schnell wiederhergestellt werden
Je höher der β-Wert (je niedriger die Datenheterogenität), desto besser die Methodenleistung

Experimentelle Erkenntnisse

Wirksamkeit des einrundigen Vergessens: SATA führt erfolgreich effektives Vergessen in einer einzigen Kommunationsrunde durch
Bedeutung von NTK: NTK-Training verbessert die Task Arithmetic Effektivität erheblich
Auswirkung der Datenheterogenität: Die Methode steht in Umgebungen mit hoher Heterogenität vor größeren Herausforderungen
Schnelle Wiederherstellungsfähigkeit: Die PU-Phase kann die Modellleistung schnell wiederherstellen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Vorschlag der ersten effektiven Methode für föderales Vergessen in einer einzigen Kommunationsrunde
Das theoretische Framework basierend auf Task Arithmetic und NTK hat gute Interpretierbarkeit
Validierung der Methodenwirksamkeit unter verschiedenen Datenheterogenitätseinstellungen
Erhebliche Verringerung der Serviceunterbrechungszeit während des Vergessungsprozesses

Einschränkungen

Herausforderung hoher Heterogenität: Leistung ist in Umgebungen mit hohem Dirichlet-Koeffizient (niedrige Heterogenität) begrenzt
Abnahme der globalen Leistung: Die globale Modellgenauigkeit sinkt während des Vergessungsprozesses
Overhead von Doppelvektoren: Die Verwaltung zusätzlicher unabhängiger Task-Vektoren erhöht Speicher- und Rechenkosten
Empfindlichkeit gegenüber Hyperparametern: Parameter wie λtgt erfordern sorgfältige Abstimmung

Zukünftige Richtungen

Behebung von Leistungsbeschränkungen bei hohem Dirichlet-Koeffizient
Erforschung der Adaptierbarkeit in anderen Modalitäten und föderalen Einstellungen
Weitere Optimierung der Erhaltung der globalen Modellleistung
Untersuchung von Methoden zur adaptiven Hyperparameter-Auswahl

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste Implementierung des einrundigen föderalen Vergessens, das kritische Probleme in praktischen Anwendungen löst
Solide theoretische Grundlage: Basierend auf Task Arithmetic und NTK mit solider theoretischer Grundlage
Hoher praktischer Wert: Erhebliche Verringerung der Serviceunterbrechungszeit und Verbesserung der Systemverfügbarkeit
Umfassende Experimente: Vollständige Bewertung auf mehreren Datensätzen und verschiedenen Heterogenitätseinstellungen
Einfache Methode: Das Kernkonzept ist einfach und intuitiv, leicht zu verstehen und zu implementieren

Mängel

Leistungskompromisse: Deutlicher Kompromiss zwischen Vergessungseffektivität und globaler Leistung
Heterogenitätsbeschränkungen: Leistung ist unter bestimmten Heterogenitätseinstellungen nicht ideal
Ressourcenaufwand: Der Dual-Task-Vector-Mechanismus erhöht Speicher- und Rechenkosten
Unzureichende theoretische Analyse: Mangelnde tiefgreifende Analyse der Konvergenz und theoretischen Garantien der Methode

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Forschungsrichtungen für das Feld des föderalen Vergessens
Praktischer Wert: Löst kritische Probleme bei der praktischen Bereitstellung mit wichtigen Anwendungsaussichten
Technische Inspiration: Die Anwendung von Task Arithmetic im föderalen Lernen hat inspirierende Bedeutung

Anwendungsszenarien

Zeitkritische Systeme: Echtzeitdienste, die schnelle Vergessensreaktionen erfordern
Häufige Vergessensanforderungen: Dynamische Umgebungen, die häufig Client-Entfernung erfordern
Ressourcenreiche Umgebungen: Systeme, die den Overhead von Doppelvektoren tragen können
Umgebungen mit mittlerer bis niedriger Heterogenität: Föderale Lernszenarien mit relativ gleichmäßiger Datenverteilung

Referenzen

Dieses Papier zitiert 34 relevante Arbeiten, die mehrere verwandte Bereiche wie föderales Lernen, maschinelles Vergessen und Task Arithmetic abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.

Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich des föderalen Vergessens, das eine einrundige Vergessungsmethode vorschlägt, die kritische Probleme in praktischen Anwendungen löst. Obwohl es in einigen Aspekten Einschränkungen gibt, machen seine Innovativität und sein praktischer Wert es zu einem wichtigen Fortschritt in diesem Bereich.