2025-11-13T21:49:11.069891

SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness

Kodge, Ravikumar, Saha et al.
Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
academic

SAP: Korrektives Machine Unlearning mit skalierter Aktivierungsprojection für Robustheit gegenüber Label-Rauschen

Grundlegende Informationen

  • Papier-ID: 2403.08618
  • Titel: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
  • Autoren: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
  • Klassifizierung: cs.LG cs.AI stat.ML
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv v2)
  • Papier-Link: https://arxiv.org/abs/2403.08618
  • Code-Link: https://github.com/sangamesh-kodge/SAP.git

Zusammenfassung

Label-Beschädigungen stellen ein wichtiges Problem im Deep Learning dar. Fehlerhafte Beschriftungen von Trainingsproben, verursacht durch unprofessionelle Annotationen oder gegnerische Angriffe, können die Modellleistung erheblich beeinträchtigen. Die Beschaffung großflächig perfekt beschrifteter Datensätze ist kostspielig, und das Neutraining von Modellen von Grund auf ist rechnerisch aufwändig. Zu diesem Zweck schlagen wir SAP (Scaled Activation Projection) vor – einen korrigierten Machine-Unlearning-Algorithmus basierend auf Singulärwertzerlegung (SVD). SAP mildert Label-Rauschen, indem es eine kleine Anzahl vertrauenswürdiger Stichproben mithilfe von Cross-Entropy-Verlust identifiziert und Modellgewichte in einen sauberen Aktivierungsraum projiziert, der basierend auf diesen vertrauenswürdigen Stichproben mittels SVD geschätzt wird. Experimente zeigen, dass SAP bei 25% synthetischer Beschädigung auf CIFAR-Datensätzen Verbesserungen der Verallgemeinerung von bis zu 6% erreicht, durchschnittlich etwa 3,2% über rausch-robusten Trainingsmethoden hinaus verbessert und bei natürlich beschädigten Clothing1M-Datensätzen mit Vision-Transformer-Modellen eine Verbesserung der Verallgemeinerung von 2,31% erreicht.

Forschungshintergrund und Motivation

Problemdefinition

  1. Label-Rausch-Problem: Beschriftungsfehler sind in großflächigen Datensätzen weit verbreitet und können aus folgenden Quellen stammen:
    • Menschliche Annotationsfehler
    • Fehlklassifizierungen automatischer Annotationssysteme (z. B. große Sprachmodelle)
    • Böswillige Datenvergiftungsangriffe
  2. Einschränkungen bestehender Lösungen:
    • Datenbereinigungsmethoden: Erfordern Neutraining des Modells mit hohen Rechenkosten
    • Rausch-robustes Training: Kann zwar die Robustheit verbessern, kann aber die Leistungslücke nicht vollständig schließen
    • Traditionelles Machine Unlearning: Erfordert explizite Unterscheidung zwischen fehlerhaft beschrifteten und schwer zu lernenden Stichproben, praktische Anwendung ist schwierig
  3. Forschungsmotivation:
    • Vermeidung der hohen Rechenkosten des Neutrainings von Grund auf
    • Keine explizite Identifizierung fehlerhaft beschrifteter Stichproben erforderlich
    • Effiziente Rausch-Minderung durch einmalige Gewichtsaktualisierung

Kernbeiträge

  1. Vorschlag des SAP-Algorithmus: Ein korrigierter Machine-Unlearning-Algorithmus basierend auf SVD, der Label-Rauschen-Auswirkungen durch Aktivierungsprojection mildert
  2. Automatisierte Auswahl vertrauenswürdiger Stichproben: Automatische Identifizierung vertrauenswürdiger Stichproben mittels Cross-Entropy-Verlust, ohne manuelle Annotation
  3. Einschrittige Gewichtsaktualisierung: Effiziente Modellkorrektur durch eine einzelne SVD-Berechnung und Gewichtsprojection
  4. Umfangreiche experimentelle Validierung: Validierung der Wirksamkeit in synthetischen und realen Rausch-Szenarien mit Unterstützung für mehrere Modellarchitekturen

Methodische Details

Aufgabendefinition

Gegeben ein Trainingsdatensatz DTrD_{Tr} mit Label-Rauschen besteht das Ziel darin, die trainierten Modellparameter θθ^* zu korrigieren, sodass die Verallgemeinerungsleistung auf dem Testdatensatz derjenigen eines auf sauberen Daten trainierten Modells nahekommt, ohne Neutraining erforderlich zu machen.

Modellarchitektur

1. Gewichtsaktualisierungsmechanismus

Für eine lineare Schicht aout=ainWTa_{out} = a_{in}W^T projiziert SAP Eingabeaktivierungen durch eine Aktivierungsausrichtungsmatrix WpW_p:

a^out=(ainWp)WT=ain(WWpT)T=ainW^T\hat{a}_{out} = (a_{in}W_p)W^T = a_{in}(WW_p^T)^T = a_{in}\hat{W}^T

Die Gewichtsaktualisierungsregel lautet: W^=WWpT\hat{W} = WW_p^T

2. Schätzung vertrauenswürdiger Daten

Auswahl von NTrustN_{Trust} Stichproben mit den niedrigsten Verlusten als vertrauenswürdige Menge mittels Cross-Entropy-Verlust:

DTrust=argminS(xi,yi)SL(θ,xi,yi)D_{Trust} = \arg\min_S \sum_{(x_i,y_i) \in S} L(θ^*, x_i, y_i)

wobei S={SiDTrSi=NTrust}S = \{S_i \subseteq D_{Tr} | |S_i| = N_{Trust}\}

3. Konstruktion der Darstellungsmatrix

  • Lineare Schicht: Rlinear=[(aiin)i=1NTrust]R_{linear} = [(a_i^{in})_{i=1}^{N_{Trust}}]
  • Faltungsschicht: Umwandlung der Faltung in Matrixmultiplikation durch Unfold-Operation, Rconv=[(unfold(aiin)T)i=1NTrust]R_{conv} = [(unfold(a_i^{in})^T)_{i=1}^{N_{Trust}}]

4. SVD-Zerlegung und Wichtigkeitsskalierung

SVD-Zerlegung der Darstellungsmatrix: Rl=UlΣlVlTR^l = U^l Σ^l V^{lT}

Berechnung der Wichtigkeitsgewichte: λi=ασ~i(α1)σ~i+1λ_i = \frac{α\tilde{σ}_i}{(α-1)\tilde{σ}_i + 1}

wobei σ~i=σi2/j=1dσj2\tilde{σ}_i = σ_i^2 / \sum_{j=1}^d σ_j^2 der normalisierte Singulärwert ist und αα der Skalierungskoeffizient.

5. Aktivierungsausrichtungsmatrix

Konstruktion der Projektionsmatrix: Wp=UΛUTW_p = UΛU^T, wobei Λ=diag(λ1,λ2,...,λd)Λ = diag(λ_1, λ_2, ..., λ_d)

Technische Innovationen

  1. Automatisierte Verarbeitung: Keine manuelle Identifizierung fehlerhafter Stichproben erforderlich; automatische Auswahl vertrauenswürdiger Stichproben durch Verlustfunktion
  2. Effiziente Aktualisierung: Gewichtsaktualisierung durch einzelne SVD-Berechnung und Matrixmultiplikation, Vermeidung iterativer Optimierung
  3. Aktivierungsraum-Projektion: Unterdrückung der Auswirkungen rausch-behafteter Aktivierungen durch Projektion in sauberen Aktivierungsraum
  4. Architektur-Unabhängigkeit: Anwendbar auf lineare und Faltungsschichten, Unterstützung für mehrere Netzwerkarchitekturen

Experimentelle Einrichtung

Datensätze

  1. Datensätze mit synthetischem Rauschen:
    • CIFAR-10/CIFAR-100
    • Drei Rausch-Typen: symmetrisches Rauschen, asymmetrisches Rauschen, hierarchisches Rauschen
    • Rausch-Intensität: 10% und 25%
  2. Datensätze mit realem Rauschen:
    • Mini-WebVision
    • Clothing1M

Bewertungsmetriken

  • Genauigkeit auf dem Testdatensatz
  • Leistungsvergleich mit Baseline-Methoden
  • Umfang der Verallgemeinerungsverbesserung

Vergleichsmethoden

  • Retrain: Ideales Modell, das auf sauberen Daten neu trainiert wurde
  • Vanilla: Basis-Modell, das auf rausch-behafteten Daten trainiert wurde
  • Finetune: Feinabstimmung auf wenigen sauberen Daten
  • SSD: Unlearning-Algorithmus basierend auf selektiver synaptischer Unterdrückung
  • SCRUB: State-of-the-Art Machine-Unlearning-Algorithmus

Implementierungsdetails

  • Anzahl vertrauenswürdiger Stichproben: 1000
  • Suchbereich für Skalierungskoeffizient α: 2000, 300000
  • Modellarchitekturen: VGG11, ResNet18, ResNet50, ViT-B/16
  • Optimierer: SGD, Lernrate 0,01, Gewichtsabfall 5×10^-4

Experimentelle Ergebnisse

Hauptergebnisse

Experimente mit synthetischem Rauschen

Ergebnisse auf CIFAR-10 und CIFAR-100 Datensätzen zeigen:

DatensatzRausch-IntensitätVanillaSAPVerbesserung
CIFAR-1025%76,68±0,4882,27±0,15+5,59%
CIFAR-10025%50,64±0,6053,31±0,78+2,67%

SAP übertrifft alle anderen Unlearning-Methoden bei allen Rausch-Einstellungen mit durchschnittlichen Verbesserungen von 1,36% (CIFAR-10) und 0,39% (CIFAR-100).

Verbesserung des rausch-robusten Trainings

SAP kann die Leistung bestehender rausch-robuster Methoden weiter verbessern:

MethodeCIFAR-10 BaselineSAP-VerbesserungVerbesserung
MixUp83,12±0,4486,45±0,52+3,33%
SAM83,29±0,2887,29±0,08+4,0%
Durchschnitt83,6987,14+3,45%

Rauschen in der realen Welt

Ergebnisse auf Datensätzen mit realem Rauschen:

DatensatzModellVanillaSAPVerbesserung
Clothing1MResNet5067,48±0,6469,64±0,57+2,16%
Clothing1MViT-B/1669,12±0,4571,43±0,60+2,31%

Ablationsstudien

Auswirkung der Anzahl vertrauenswürdiger Stichproben

Experimente zeigen, dass der Nutzen nach Erhöhung der vertrauenswürdigen Stichproben auf 1000 abnimmt, daher wird diese Zahl gewählt, um Leistung und Recheneffizienz auszugleichen.

Auswirkung des Skalierungskoeffizients α

α=30000 zeigt die beste Leistung bei verschiedenen synthetischen Rausch-Einstellungen; zu große oder zu kleine α-Werte verringern die Leistung.

Experimentelle Erkenntnisse

  1. Recheneffizienz: SAP benötigt nur 16 Hyperparameter-Suchvorgänge, während SCRUB 675 benötigt
  2. Robustheit: Stabile Leistung bei verschiedenen Rausch-Typen und -Intensitäten
  3. Skalierbarkeit: Erfolgreiche Anwendung auf großflächige Datensätze und Transformer-Modelle
  4. Optimierung der Entscheidungsgrenze: Visualisierungsexperimente zeigen, dass SAP die Entscheidungsgrenze glätten und Überanpassung reduzieren kann

Verwandte Arbeiten

Klassifizierung von Label-Rausch-Behandlungsmethoden

  1. Datenbereinigungsmethoden:
    • Datenfilterung: Entfernung fehlerhaft beschrifteter Stichproben
    • Stichprobenauswahl: Dynamische Auswahl von Trainingsstichproben
    • Label-Korrektur: Korrektur fehlerhafter Labels
  2. Rausch-robustes Training:
    • Regularisierungstechniken: Dropout, Label-Smoothing
    • Robuste Verlustfunktionen: Symmetrische Cross-Entropy, MAE
    • Datenerweiterung: MixUp, MentorMix
  3. Korrigierendes Machine Unlearning:
    • Traditionelles Unlearning konzentriert sich auf Datenschutz
    • Korrigierendes Unlearning konzentriert sich auf Verbesserung der Verallgemeinerungsleistung

Vorteile dieser Arbeit

Im Vergleich zu bestehenden Methoden hat SAP folgende Vorteile:

  • Keine explizite Identifizierung fehlerhafter Stichproben erforderlich
  • Einmalige Aktualisierung vermeidet Instabilität iterativer Optimierung
  • Einfache Hyperparameter-Anpassung, hohe Recheneffizienz

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Validierung der Wirksamkeit: SAP verbessert die Modellverallgemeinerungsleistung in synthetischen und realen Rausch-Szenarien erheblich
  2. Effizienzvorteile: Einmalige Gewichtsaktualisierung und einfache Hyperparameter-Anpassung bieten SAP erhebliche Rechenvorteile
  3. Breite Anwendbarkeit: Unterstützung für mehrere Netzwerkarchitekturen und Datensatzgrößen
  4. Praktischer Wert: Kann mit bestehenden rausch-robusten Methoden kombiniert werden, um die Leistung weiter zu verbessern

Einschränkungen

  1. Annahme vertrauenswürdiger Stichproben: Abhängig von der Annahme, dass Stichproben mit niedrigem Verlust tatsächlich korrekt beschriftet sind
  2. Empfindlichkeit gegenüber Hyperparametern: Die Wahl des Skalierungskoeffizients α hat wichtige Auswirkungen auf die Leistung
  3. Einschränkung des Rausch-Typs: Hauptsächlich auf Label-Rauschen ausgerichtet; begrenzte Fähigkeit zur Behandlung anderer Rausch-Typen
  4. Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für die Wirksamkeit der Methode

Zukünftige Richtungen

  1. Theoretische Analyse: Aufbau einer theoretischen Grundlage für die Wirksamkeit von SAP
  2. Adaptive Parameterauswahl: Entwicklung von Methoden zur automatischen Auswahl des optimalen α
  3. Erweiterte Anwendungen: Erforschung von Anwendungen bei anderen Rausch-Typen und Aufgaben
  4. Kombination mit anderen Techniken: Untersuchung der Kombination mit Datenerweiterung, gegnerischem Training und anderen Techniken

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation:
    • Erstmalige Anwendung von SVD auf korrigierendes Machine Unlearning
    • Neuartige und effektive Idee der Aktivierungsprojection
    • Automatisierte Auswahl vertrauenswürdiger Stichproben vermeidet menschliche Eingriffe
  2. Experimentelle Umfassendheit:
    • Abdeckung mehrerer Rausch-Typen und Datensätze
    • Vergleich mit mehreren Baseline-Methoden
    • Einschluss von Ablationsstudien und Parameterempfindlichkeitsanalyse
  3. Praktischer Wert:
    • Hohe Recheneffizienz, leichte Bereitstellung
    • Kann mit bestehenden Methoden kombiniert werden
    • Unterstützung für mehrere Netzwerkarchitekturen
  4. Überzeugungskraft der Ergebnisse:
    • Konsistente Leistungsverbesserungen
    • Validierung statistischer Signifikanz
    • Visualisierungsanalyse verbessert das Verständnis

Mängel

  1. Schwache theoretische Grundlage:
    • Mangel an theoretischer Analyse der Methodenwirksamkeit
    • Keine Erklärung, warum SVD-Projektion Rauschen effektiv unterdrücken kann
  2. Annahme-Einschränkungen:
    • Die Annahme, dass Stichproben mit niedrigem Verlust korrekt beschriftet sind, trifft möglicherweise nicht immer zu
    • Starke Annahmen über die Rausch-Verteilung
  3. Parameteranpassung:
    • Auswahl von α mangelt es an theoretischer Anleitung
    • Verschiedene Datensätze erfordern möglicherweise unterschiedliche α-Werte
  4. Vergleichsbeschränkungen:
    • Vergleich mit neuesten rausch-robusten Methoden nicht ausreichend
    • Mangel an direktem Vergleich mit Datenbereinigungsmethoden

Auswirkungen

  1. Akademischer Beitrag:
    • Bietet neue Forschungsrichtung für Machine-Unlearning-Bereich
    • Aktivierungsprojection-Idee könnte andere Anwendungen inspirieren
  2. Praktische Anwendung:
    • Bietet praktisches Werkzeug zur Behandlung von Label-Rauschen in der realen Welt
    • Kann in bestehende Trainings-Workflows integriert werden
  3. Reproduzierbarkeit:
    • Vollständige Code-Implementierung bereitgestellt
    • Experimentelle Einrichtung detailliert beschrieben

Anwendungsszenarien

  1. Szenarien mit schlechter Datensatz-Label-Qualität
  2. Situationen, in denen Daten nicht neu beschriftet werden können
  3. Anwendungen, die schnelle Korrektur bereits trainierter Modelle erfordern
  4. Umgebungen mit begrenzten Rechenressourcen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in verwandten Bereichen, einschließlich:

  • Machine Unlearning: SCRUB, SSD und andere Methoden
  • Label-Rausch-Behandlung: MixUp, MentorMix, SAM und andere
  • Datenbereinigung: Confident Learning und andere
  • Grundlegende Theorie: SVD-Zerlegung, Aktivierungsanalyse und andere

Gesamtbewertung: Das in diesem Papier vorgeschlagene SAP-Verfahren hat wichtigen Wert bei der Behandlung von Label-Rauschen. Durch geschickte Gestaltung der Aktivierungsprojection wird eine effiziente Modellkorrektur erreicht. Obwohl die theoretische Analyse gewisse Mängel aufweist, ist die experimentelle Validierung umfassend und der praktische Wert erheblich, was einen wertvollen Beitrag zum verwandten Bereich darstellt.