Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
- Paper-ID: 2510.13606
- Titel: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
- Autoren: Riccardo Santi, Riccardo Salami, Simone Calderara (Universität Modena und Reggio Emilia, Italien)
- Klassifizierung: cs.LG (Maschinelles Lernen)
- Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.13606v1
Mit der verbesserten Rechenleistung tragbarer Geräte und erweiterten Datenerfassungsfähigkeiten ist das verteilte Training von KI-Modellen möglich geworden, während gleichzeitig die Privatsphäre der teilnehmenden Clients geschützt wird. Aufgrund von Datenschutzbestimmungen und Sicherheitsanforderungen ist es jedoch erforderlich geworden, die Beiträge von Clients zum Modell bei Bedarf zu löschen. Der Bereinigungsprozess muss spezifische Effizienz- und Zeitanforderungen erfüllen. Jüngste Forschungen haben verschiedene Wissensentzugsmethoden hervorgebracht, diese erfordern jedoch mehrere Kommunationsrunden zwischen dem Dateninhaber und dem Prozesskoordinator, was dazu führen kann, dass das Modell bis zum Ende des Entzugsprozesses nicht verfügbar ist und somit zu Serviceunterbrechungen für Systembenutzer führt. Basierend auf Task Arithmetic und Neural Tangent Kernel (NTK) schlägt dieses Papier eine innovative Lösung zur schnellen Entfernung von Client-Einflüssen vor.
Das Kernproblem dieser Forschung ist das föderale Vergessen (Federated Unlearning, FU): schnelle und effektive Entfernung der Beiträge eines bestimmten Clients zum globalen Modell in einer föderalen Lernumgebung, während gleichzeitig die Modellleistung und der Datenschutz gewährleistet werden.
- Einhaltung von Vorschriften: Datenschutzbestimmungen wie GDPR und CCPA erfordern das "Recht auf Vergessenwerden"
- Sicherheitsanforderungen: Notwendigkeit, Beiträge böswilliger oder kontaminierter Clients zu entfernen
- Sensible Bereiche wie Gesundheitswesen: Anforderungen zur Widerrufung von Patientendaten
- Servicekontinuität: Traditionelle Methoden erfordern mehrere Kommunationsrunden, was zu längeren Modellausfallzeiten führt
- FedEraser und ähnliche Methoden erfordern mehrere Kommunationsrunden zur Erzeugung eines effektiven Bereinigungsmodells
- Das Modell ist während des Vergessungsprozesses nicht verfügbar, was zu Serviceunterbrechungen führt
- Unzureichende Robustheit in Umgebungen mit hoher Datenheterogenität
Entwicklung einer Methode, die Client-Vergessen innerhalb einer einzigen Kommunationsrunde durchführen kann, um die Serviceunterbrechungszeit zu minimieren und gleichzeitig eine gute Leistung in Umgebungen mit hoher Datenheterogenität zu bewahren.
- Vorschlag der SATA-Methode: Neue föderale Vergessungsmethode basierend auf Task Arithmetic und Neural Tangent Kernel, die Client-Vergessen in einer einzigen Kommunationsrunde ermöglicht
- Innovativer Dual-Task-Vector-Mechanismus: Jeder Client verwaltet zwei unabhängige Task-Vektoren, wobei der unabhängige Task-Vektor speziell für Vergessungsoperationen verwendet wird
- NTK-verstärkte Task Arithmetic: Nutzung von Neural Tangent Kernel-Training zur Verbesserung der Entkopplung von Task-Vektoren und Verringerung von Task-Interferenzen
- Umfassende experimentelle Validierung: Vergleich mit mehreren Baseline-Methoden auf den Datensätzen Cars-196 und Resisc45, um die Wirksamkeit der Methode zu demonstrieren
Eingabe:
- Vortrainierte Modellparameter θ₀
- Lokale Datensätze von K Clients {D₁, D₂, ..., Dₖ}
- Ziel-Client zum Vergessen: tgt
Ausgabe:
- Bereinigtes globales Modell θ̂clean, das den Einfluss des Ziel-Clients entfernt hat
- Modellleistung, die die Beiträge anderer Clients bewahrt
Einschränkungen:
- Vergessen in einer einzigen Kommunationsrunde
- Schutz der Client-Privatsphäre
- Aufrechterhaltung der Modellleistung auf Daten von Nicht-Ziel-Clients
Jeder Client k verwaltet zwei unabhängige Task-Vektoren:
- Primärer Task-Vektor τₖ: Beteiligt sich am verteilten Trainingsprozess und trägt zur globalen Modellberechnung bei
- Unabhängiger Task-Vektor τₖˢᵃ: Bleibt isoliert, nicht durch Informationen anderer Clients kontaminiert, speziell für zukünftige Vergessungsoperationen
Basierend auf der Task Arithmetic Theorie, wobei der Task-Vektor τₜ = θₜ - θ₀ die Parameteränderung des Modells nach dem Feintuning auf einer bestimmten Aufgabe darstellt. Kombination mehrerer Task-Vektoren:
θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ
wobei λᵢ skalare Gewichtungskoeffizienten sind.
Wenn der Ziel-Client tgt vergessen werden muss, wird einfach sein unabhängiger Task-Vektor vom globalen Modell subtrahiert:
θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ
Nutzung des Neural Tangent Kernel, um die Lernungsdynamik neuronaler Netze im Grenzfall unendlicher Breite zu linearisieren:
flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)
Training im NTK-Regime verbessert die Entkopplung von Task-Vektoren, wobei das endgültige Modell dargestellt werden kann als:
flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)
- Einrundiges Vergessen: Im Gegensatz zu traditionellen Methoden, die mehrere Kommunationsrunden erfordern, wird das Vergessen bei SATA in einer Runde durchgeführt
- Design unabhängiger Task-Vektoren: Durch die Verwaltung unabhängiger Task-Vektoren wird die Notwendigkeit eines Neutrainings vermieden
- NTK-Verstärkung: Verbessert die Entkopplung zwischen Task-Vektoren und verringert die Auswirkungen der Vergessungsoperation auf die Beiträge anderer Clients
- Theoretische Grundlage: Basierend auf Task Arithmetic mit einer soliden theoretischen Grundlage, die einen interpretierbaren Vergessungsmechanismus bietet
- Cars-196: Ein Automobilbilddatensatz mit 196 Klassen, wobei Klassen Fahrzeugmarken, Modellen und Jahren entsprechen
- Resisc45: Ein Fernerkundungsbilddatensatz mit 45 Klassen
Beide Datensätze werden mit Dirichlet-Verteilung in nicht-IID-Weise aufgeteilt, wobei der Parameter β den Grad der Datenschiefe steuert (je kleiner β, desto schiefer die Verteilung).
- Genauigkeit des globalen Modells: Klassifizierungsgenauigkeit auf dem Testdatensatz
- Vergessungseffekt des Ziel-Clients: Genauigkeit auf den Testdaten des Ziel-Clients (je niedriger, desto besser)
- Vergessen der Trainingsdaten des Ziel-Clients: Genauigkeit auf den Trainingsdaten des Ziel-Clients (je niedriger, desto besser)
- Train From Scratch (TFS): Neutraining ab dem Vortraining (obere Grenze Baseline)
- Continue to Train (CTT): Weiteres Training mit Ausschluss des Ziel-Clients unter Nutzung katastrophalen Vergessens
- FedEraser: Die bekannteste FU-Methode, die das globale Modell basierend auf historischen Client-Updates rekonstruiert
- Modell: ViT-B/16 basierend auf OpenAI CLIP mit eingefrorener Klassifizierungskopf
- Optimierer: AdamW
- Experimentelle Einrichtung:
- Resisc45: 3 FL-Runden + 3 FU-Runden + erweiterte PU-Runden
- Cars-196: 10 FL-Runden + 10 FU-Runden + 5 PU-Runden
- Hyperparameter: Optimiert durch Gittersuche für λtgt und Lernrate
Bei der Genauigkeit des Ziel-Clients auf dem Testdatensatz übertrifft SATA NTK alle konkurrierenden Methoden in allen Einstellungen deutlich:
Resisc45-Datensatz:
- β=0.05: FU-Phase 9,96% vs FedEraser 56,79%
- β=0.1: FU-Phase 31,69% vs FedEraser 80,10%
- β=0.5: FU-Phase 14,29% vs FedEraser 89,95%
Cars196-Datensatz:
- β=0.05: FU-Phase 1,48% vs FedEraser 56,04%
- β=0.1: FU-Phase 6,36% vs FedEraser 58,32%
- β=0.5: FU-Phase 0,27% vs FedEraser 69,93%
Obwohl SATA bei der Vergessungseffektivität hervorragende Leistungen zeigt, ist die globale Modellgenauigkeit leicht niedriger als bei anderen Methoden, besonders in der FU-Phase:
Leistungsabfallanalyse:
- Der Leistungsabfall ist in Umgebungen mit hoher Heterogenität (niedrige β-Werte) ausgeprägter
- Nach der PU-Phase kann die Leistung auf ein Niveau nahe bei anderen Methoden wiederhergestellt werden
Vergleich der Effekte mit und ohne NTK-Training:
- SATA vs SATA NTK: NTK-Training verbessert konsistent die Vergessungsleistung
- SAFA vs SAFA NTK: SAFA (Stand Alone FedAvg) zeigt höhere globale Genauigkeit, aber leicht schlechtere Vergessungseffekte
- θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: Verwendung nur der unabhängigen Task-Vektoren verbleibender Clients
- θ̂ - λtgt τₜₒₜˢᵃ: Subtraktion des Ziel-Client-Beitrags vom globalen Modell (SATA-Methode)
Die Ergebnisse zeigen, dass die SATA-Methode bei der Vergessungseffektivität überlegen ist.
Aus den Visualisierungsergebnissen in Abbildung 1 ist ersichtlich:
- SATA erreicht den niedrigsten Wert bei der Genauigkeit des Ziel-Clients
- Obwohl die globale Genauigkeit sinkt, kann sie in der PU-Phase schnell wiederhergestellt werden
- Je höher der β-Wert (je niedriger die Datenheterogenität), desto besser die Methodenleistung
- Wirksamkeit des einrundigen Vergessens: SATA führt erfolgreich effektives Vergessen in einer einzigen Kommunationsrunde durch
- Bedeutung von NTK: NTK-Training verbessert die Task Arithmetic Effektivität erheblich
- Auswirkung der Datenheterogenität: Die Methode steht in Umgebungen mit hoher Heterogenität vor größeren Herausforderungen
- Schnelle Wiederherstellungsfähigkeit: Die PU-Phase kann die Modellleistung schnell wiederherstellen
- FedAvg: Grundlegende parametrische Durchschnittsaggregationsmethode
- FedProx: Einführung eines Proximalbegriffs zur Behandlung von Heterogenität
- SCAFFOLD: Verwendung von Kontrollvariablen zur Verringerung von Client-Drift
- FedDC: Anpassung von Updates durch Schätzung und Korrektur lokaler Drift
- Zentralisiertes Vergessen: Traditionelle Vergessungsmethoden sind für föderale Einstellungen nicht geeignet
- Föderales Vergessen: Methoden wie FedEraser, FedRecover, FedRecovery
- Lineares Operationsframework für die Bearbeitung vortrainierter Modelle
- Theoretische Grundlagen von NTK-verstärkter Task Arithmetic
- Vorschlag der ersten effektiven Methode für föderales Vergessen in einer einzigen Kommunationsrunde
- Das theoretische Framework basierend auf Task Arithmetic und NTK hat gute Interpretierbarkeit
- Validierung der Methodenwirksamkeit unter verschiedenen Datenheterogenitätseinstellungen
- Erhebliche Verringerung der Serviceunterbrechungszeit während des Vergessungsprozesses
- Herausforderung hoher Heterogenität: Leistung ist in Umgebungen mit hohem Dirichlet-Koeffizient (niedrige Heterogenität) begrenzt
- Abnahme der globalen Leistung: Die globale Modellgenauigkeit sinkt während des Vergessungsprozesses
- Overhead von Doppelvektoren: Die Verwaltung zusätzlicher unabhängiger Task-Vektoren erhöht Speicher- und Rechenkosten
- Empfindlichkeit gegenüber Hyperparametern: Parameter wie λtgt erfordern sorgfältige Abstimmung
- Behebung von Leistungsbeschränkungen bei hohem Dirichlet-Koeffizient
- Erforschung der Adaptierbarkeit in anderen Modalitäten und föderalen Einstellungen
- Weitere Optimierung der Erhaltung der globalen Modellleistung
- Untersuchung von Methoden zur adaptiven Hyperparameter-Auswahl
- Hohe Innovativität: Erste Implementierung des einrundigen föderalen Vergessens, das kritische Probleme in praktischen Anwendungen löst
- Solide theoretische Grundlage: Basierend auf Task Arithmetic und NTK mit solider theoretischer Grundlage
- Hoher praktischer Wert: Erhebliche Verringerung der Serviceunterbrechungszeit und Verbesserung der Systemverfügbarkeit
- Umfassende Experimente: Vollständige Bewertung auf mehreren Datensätzen und verschiedenen Heterogenitätseinstellungen
- Einfache Methode: Das Kernkonzept ist einfach und intuitiv, leicht zu verstehen und zu implementieren
- Leistungskompromisse: Deutlicher Kompromiss zwischen Vergessungseffektivität und globaler Leistung
- Heterogenitätsbeschränkungen: Leistung ist unter bestimmten Heterogenitätseinstellungen nicht ideal
- Ressourcenaufwand: Der Dual-Task-Vector-Mechanismus erhöht Speicher- und Rechenkosten
- Unzureichende theoretische Analyse: Mangelnde tiefgreifende Analyse der Konvergenz und theoretischen Garantien der Methode
- Akademischer Beitrag: Bietet neue Forschungsrichtungen für das Feld des föderalen Vergessens
- Praktischer Wert: Löst kritische Probleme bei der praktischen Bereitstellung mit wichtigen Anwendungsaussichten
- Technische Inspiration: Die Anwendung von Task Arithmetic im föderalen Lernen hat inspirierende Bedeutung
- Zeitkritische Systeme: Echtzeitdienste, die schnelle Vergessensreaktionen erfordern
- Häufige Vergessensanforderungen: Dynamische Umgebungen, die häufig Client-Entfernung erfordern
- Ressourcenreiche Umgebungen: Systeme, die den Overhead von Doppelvektoren tragen können
- Umgebungen mit mittlerer bis niedriger Heterogenität: Föderale Lernszenarien mit relativ gleichmäßiger Datenverteilung
Dieses Papier zitiert 34 relevante Arbeiten, die mehrere verwandte Bereiche wie föderales Lernen, maschinelles Vergessen und Task Arithmetic abdecken und eine ausreichende theoretische Grundlage und Vergleichsbenchmarks für die Forschung bieten.
Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich des föderalen Vergessens, das eine einrundige Vergessungsmethode vorschlägt, die kritische Probleme in praktischen Anwendungen löst. Obwohl es in einigen Aspekten Einschränkungen gibt, machen seine Innovativität und sein praktischer Wert es zu einem wichtigen Fortschritt in diesem Bereich.