2025-11-13T21:49:11.069891

SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness

Kodge, Ravikumar, Saha et al.

Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.

academic

SAP: Korrektives Machine Unlearning mit skalierter Aktivierungsprojection für Robustheit gegenüber Label-Rauschen

Grundlegende Informationen

Papier-ID: 2403.08618
Titel: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
Autoren: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
Klassifizierung: cs.LG cs.AI stat.ML
Veröffentlichungsdatum: 2. Januar 2025 (arXiv v2)
Papier-Link: https://arxiv.org/abs/2403.08618
Code-Link: https://github.com/sangamesh-kodge/SAP.git

Zusammenfassung

Label-Beschädigungen stellen ein wichtiges Problem im Deep Learning dar. Fehlerhafte Beschriftungen von Trainingsproben, verursacht durch unprofessionelle Annotationen oder gegnerische Angriffe, können die Modellleistung erheblich beeinträchtigen. Die Beschaffung großflächig perfekt beschrifteter Datensätze ist kostspielig, und das Neutraining von Modellen von Grund auf ist rechnerisch aufwändig. Zu diesem Zweck schlagen wir SAP (Scaled Activation Projection) vor – einen korrigierten Machine-Unlearning-Algorithmus basierend auf Singulärwertzerlegung (SVD). SAP mildert Label-Rauschen, indem es eine kleine Anzahl vertrauenswürdiger Stichproben mithilfe von Cross-Entropy-Verlust identifiziert und Modellgewichte in einen sauberen Aktivierungsraum projiziert, der basierend auf diesen vertrauenswürdigen Stichproben mittels SVD geschätzt wird. Experimente zeigen, dass SAP bei 25% synthetischer Beschädigung auf CIFAR-Datensätzen Verbesserungen der Verallgemeinerung von bis zu 6% erreicht, durchschnittlich etwa 3,2% über rausch-robusten Trainingsmethoden hinaus verbessert und bei natürlich beschädigten Clothing1M-Datensätzen mit Vision-Transformer-Modellen eine Verbesserung der Verallgemeinerung von 2,31% erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Label-Rausch-Problem: Beschriftungsfehler sind in großflächigen Datensätzen weit verbreitet und können aus folgenden Quellen stammen:
- Menschliche Annotationsfehler
- Fehlklassifizierungen automatischer Annotationssysteme (z. B. große Sprachmodelle)
- Böswillige Datenvergiftungsangriffe
Einschränkungen bestehender Lösungen:
- Datenbereinigungsmethoden: Erfordern Neutraining des Modells mit hohen Rechenkosten
- Rausch-robustes Training: Kann zwar die Robustheit verbessern, kann aber die Leistungslücke nicht vollständig schließen
- Traditionelles Machine Unlearning: Erfordert explizite Unterscheidung zwischen fehlerhaft beschrifteten und schwer zu lernenden Stichproben, praktische Anwendung ist schwierig
Forschungsmotivation:
- Vermeidung der hohen Rechenkosten des Neutrainings von Grund auf
- Keine explizite Identifizierung fehlerhaft beschrifteter Stichproben erforderlich
- Effiziente Rausch-Minderung durch einmalige Gewichtsaktualisierung

Kernbeiträge

Vorschlag des SAP-Algorithmus: Ein korrigierter Machine-Unlearning-Algorithmus basierend auf SVD, der Label-Rauschen-Auswirkungen durch Aktivierungsprojection mildert
Automatisierte Auswahl vertrauenswürdiger Stichproben: Automatische Identifizierung vertrauenswürdiger Stichproben mittels Cross-Entropy-Verlust, ohne manuelle Annotation
Einschrittige Gewichtsaktualisierung: Effiziente Modellkorrektur durch eine einzelne SVD-Berechnung und Gewichtsprojection
Umfangreiche experimentelle Validierung: Validierung der Wirksamkeit in synthetischen und realen Rausch-Szenarien mit Unterstützung für mehrere Modellarchitekturen

Methodische Details

Aufgabendefinition

Gegeben ein Trainingsdatensatz $D_{Tr}$ mit Label-Rauschen besteht das Ziel darin, die trainierten Modellparameter $θ^*$ zu korrigieren, sodass die Verallgemeinerungsleistung auf dem Testdatensatz derjenigen eines auf sauberen Daten trainierten Modells nahekommt, ohne Neutraining erforderlich zu machen.

Modellarchitektur

1. Gewichtsaktualisierungsmechanismus

Für eine lineare Schicht $a_{out} = a_{in}W^T$ projiziert SAP Eingabeaktivierungen durch eine Aktivierungsausrichtungsmatrix $W_p$ :

$\hat{a}_{out} = (a_{in}W_p)W^T = a_{in}(WW_p^T)^T = a_{in}\hat{W}^T$

Die Gewichtsaktualisierungsregel lautet: $\hat{W} = WW_p^T$

2. Schätzung vertrauenswürdiger Daten

Auswahl von $N_{Trust}$ Stichproben mit den niedrigsten Verlusten als vertrauenswürdige Menge mittels Cross-Entropy-Verlust:

$D_{Trust} = \arg\min_S \sum_{(x_i,y_i) \in S} L(θ^*, x_i, y_i)$

wobei $S = \{S_i \subseteq D_{Tr} | |S_i| = N_{Trust}\}$

3. Konstruktion der Darstellungsmatrix

Lineare Schicht: $R_{linear} = [(a_i^{in})_{i=1}^{N_{Trust}}]$
Faltungsschicht: Umwandlung der Faltung in Matrixmultiplikation durch Unfold-Operation, $R_{conv} = [(unfold(a_i^{in})^T)_{i=1}^{N_{Trust}}]$

4. SVD-Zerlegung und Wichtigkeitsskalierung

SVD-Zerlegung der Darstellungsmatrix: $R^l = U^l Σ^l V^{lT}$

Berechnung der Wichtigkeitsgewichte: $λ_i = \frac{α\tilde{σ}_i}{(α-1)\tilde{σ}_i + 1}$

wobei $\tilde{σ}_i = σ_i^2 / \sum_{j=1}^d σ_j^2$ der normalisierte Singulärwert ist und $α$ der Skalierungskoeffizient.

5. Aktivierungsausrichtungsmatrix

Konstruktion der Projektionsmatrix: $W_p = UΛU^T$ , wobei $Λ = diag(λ_1, λ_2, ..., λ_d)$

Technische Innovationen

Automatisierte Verarbeitung: Keine manuelle Identifizierung fehlerhafter Stichproben erforderlich; automatische Auswahl vertrauenswürdiger Stichproben durch Verlustfunktion
Effiziente Aktualisierung: Gewichtsaktualisierung durch einzelne SVD-Berechnung und Matrixmultiplikation, Vermeidung iterativer Optimierung
Aktivierungsraum-Projektion: Unterdrückung der Auswirkungen rausch-behafteter Aktivierungen durch Projektion in sauberen Aktivierungsraum
Architektur-Unabhängigkeit: Anwendbar auf lineare und Faltungsschichten, Unterstützung für mehrere Netzwerkarchitekturen

Experimentelle Einrichtung

Datensätze

Datensätze mit synthetischem Rauschen:
- CIFAR-10/CIFAR-100
- Drei Rausch-Typen: symmetrisches Rauschen, asymmetrisches Rauschen, hierarchisches Rauschen
- Rausch-Intensität: 10% und 25%
Datensätze mit realem Rauschen:
- Mini-WebVision
- Clothing1M

Bewertungsmetriken

Genauigkeit auf dem Testdatensatz
Leistungsvergleich mit Baseline-Methoden
Umfang der Verallgemeinerungsverbesserung

Vergleichsmethoden

Retrain: Ideales Modell, das auf sauberen Daten neu trainiert wurde
Vanilla: Basis-Modell, das auf rausch-behafteten Daten trainiert wurde
Finetune: Feinabstimmung auf wenigen sauberen Daten
SSD: Unlearning-Algorithmus basierend auf selektiver synaptischer Unterdrückung
SCRUB: State-of-the-Art Machine-Unlearning-Algorithmus

Implementierungsdetails

Anzahl vertrauenswürdiger Stichproben: 1000
Suchbereich für Skalierungskoeffizient α: 2000, 300000
Modellarchitekturen: VGG11, ResNet18, ResNet50, ViT-B/16
Optimierer: SGD, Lernrate 0,01, Gewichtsabfall 5×10^-4

Experimentelle Ergebnisse

Hauptergebnisse

Experimente mit synthetischem Rauschen

Ergebnisse auf CIFAR-10 und CIFAR-100 Datensätzen zeigen:

Datensatz	Rausch-Intensität	Vanilla	SAP	Verbesserung
CIFAR-10	25%	76,68±0,48	82,27±0,15	+5,59%
CIFAR-100	25%	50,64±0,60	53,31±0,78	+2,67%

SAP übertrifft alle anderen Unlearning-Methoden bei allen Rausch-Einstellungen mit durchschnittlichen Verbesserungen von 1,36% (CIFAR-10) und 0,39% (CIFAR-100).

Verbesserung des rausch-robusten Trainings

SAP kann die Leistung bestehender rausch-robuster Methoden weiter verbessern:

Methode	CIFAR-10 Baseline	SAP-Verbesserung	Verbesserung
MixUp	83,12±0,44	86,45±0,52	+3,33%
SAM	83,29±0,28	87,29±0,08	+4,0%
Durchschnitt	83,69	87,14	+3,45%

Rauschen in der realen Welt

Ergebnisse auf Datensätzen mit realem Rauschen:

Datensatz	Modell	Vanilla	SAP	Verbesserung
Clothing1M	ResNet50	67,48±0,64	69,64±0,57	+2,16%
Clothing1M	ViT-B/16	69,12±0,45	71,43±0,60	+2,31%

Ablationsstudien

Auswirkung der Anzahl vertrauenswürdiger Stichproben

Experimente zeigen, dass der Nutzen nach Erhöhung der vertrauenswürdigen Stichproben auf 1000 abnimmt, daher wird diese Zahl gewählt, um Leistung und Recheneffizienz auszugleichen.

Auswirkung des Skalierungskoeffizients α

α=30000 zeigt die beste Leistung bei verschiedenen synthetischen Rausch-Einstellungen; zu große oder zu kleine α-Werte verringern die Leistung.

Experimentelle Erkenntnisse

Recheneffizienz: SAP benötigt nur 16 Hyperparameter-Suchvorgänge, während SCRUB 675 benötigt
Robustheit: Stabile Leistung bei verschiedenen Rausch-Typen und -Intensitäten
Skalierbarkeit: Erfolgreiche Anwendung auf großflächige Datensätze und Transformer-Modelle
Optimierung der Entscheidungsgrenze: Visualisierungsexperimente zeigen, dass SAP die Entscheidungsgrenze glätten und Überanpassung reduzieren kann

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Validierung der Wirksamkeit: SAP verbessert die Modellverallgemeinerungsleistung in synthetischen und realen Rausch-Szenarien erheblich
Effizienzvorteile: Einmalige Gewichtsaktualisierung und einfache Hyperparameter-Anpassung bieten SAP erhebliche Rechenvorteile
Breite Anwendbarkeit: Unterstützung für mehrere Netzwerkarchitekturen und Datensatzgrößen
Praktischer Wert: Kann mit bestehenden rausch-robusten Methoden kombiniert werden, um die Leistung weiter zu verbessern

Einschränkungen

Annahme vertrauenswürdiger Stichproben: Abhängig von der Annahme, dass Stichproben mit niedrigem Verlust tatsächlich korrekt beschriftet sind
Empfindlichkeit gegenüber Hyperparametern: Die Wahl des Skalierungskoeffizients α hat wichtige Auswirkungen auf die Leistung
Einschränkung des Rausch-Typs: Hauptsächlich auf Label-Rauschen ausgerichtet; begrenzte Fähigkeit zur Behandlung anderer Rausch-Typen
Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für die Wirksamkeit der Methode

Zukünftige Richtungen

Theoretische Analyse: Aufbau einer theoretischen Grundlage für die Wirksamkeit von SAP
Adaptive Parameterauswahl: Entwicklung von Methoden zur automatischen Auswahl des optimalen α
Erweiterte Anwendungen: Erforschung von Anwendungen bei anderen Rausch-Typen und Aufgaben
Kombination mit anderen Techniken: Untersuchung der Kombination mit Datenerweiterung, gegnerischem Training und anderen Techniken

Tiefgreifende Bewertung

Stärken

Methodische Innovation:
- Erstmalige Anwendung von SVD auf korrigierendes Machine Unlearning
- Neuartige und effektive Idee der Aktivierungsprojection
- Automatisierte Auswahl vertrauenswürdiger Stichproben vermeidet menschliche Eingriffe
Experimentelle Umfassendheit:
- Abdeckung mehrerer Rausch-Typen und Datensätze
- Vergleich mit mehreren Baseline-Methoden
- Einschluss von Ablationsstudien und Parameterempfindlichkeitsanalyse
Praktischer Wert:
- Hohe Recheneffizienz, leichte Bereitstellung
- Kann mit bestehenden Methoden kombiniert werden
- Unterstützung für mehrere Netzwerkarchitekturen
Überzeugungskraft der Ergebnisse:
- Konsistente Leistungsverbesserungen
- Validierung statistischer Signifikanz
- Visualisierungsanalyse verbessert das Verständnis

Mängel

Schwache theoretische Grundlage:
- Mangel an theoretischer Analyse der Methodenwirksamkeit
- Keine Erklärung, warum SVD-Projektion Rauschen effektiv unterdrücken kann
Annahme-Einschränkungen:
- Die Annahme, dass Stichproben mit niedrigem Verlust korrekt beschriftet sind, trifft möglicherweise nicht immer zu
- Starke Annahmen über die Rausch-Verteilung
Parameteranpassung:
- Auswahl von α mangelt es an theoretischer Anleitung
- Verschiedene Datensätze erfordern möglicherweise unterschiedliche α-Werte
Vergleichsbeschränkungen:
- Vergleich mit neuesten rausch-robusten Methoden nicht ausreichend
- Mangel an direktem Vergleich mit Datenbereinigungsmethoden

Auswirkungen

Akademischer Beitrag:
- Bietet neue Forschungsrichtung für Machine-Unlearning-Bereich
- Aktivierungsprojection-Idee könnte andere Anwendungen inspirieren
Praktische Anwendung:
- Bietet praktisches Werkzeug zur Behandlung von Label-Rauschen in der realen Welt
- Kann in bestehende Trainings-Workflows integriert werden
Reproduzierbarkeit:
- Vollständige Code-Implementierung bereitgestellt
- Experimentelle Einrichtung detailliert beschrieben

Anwendungsszenarien

Szenarien mit schlechter Datensatz-Label-Qualität
Situationen, in denen Daten nicht neu beschriftet werden können
Anwendungen, die schnelle Korrektur bereits trainierter Modelle erfordern
Umgebungen mit begrenzten Rechenressourcen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

Machine Unlearning: SCRUB, SSD und andere Methoden
Label-Rausch-Behandlung: MixUp, MentorMix, SAM und andere
Datenbereinigung: Confident Learning und andere
Grundlegende Theorie: SVD-Zerlegung, Aktivierungsanalyse und andere

Gesamtbewertung: Das in diesem Papier vorgeschlagene SAP-Verfahren hat wichtigen Wert bei der Behandlung von Label-Rauschen. Durch geschickte Gestaltung der Aktivierungsprojection wird eine effiziente Modellkorrektur erreicht. Obwohl die theoretische Analyse gewisse Mängel aufweist, ist die experimentelle Validierung umfassend und der praktische Wert erheblich, was einen wertvollen Beitrag zum verwandten Bereich darstellt.