Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
- ID Articolo: 2403.08618
- Titolo: SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
- Autori: Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Purdue University)
- Classificazione: cs.LG cs.AI stat.ML
- Data di Pubblicazione: 2 gennaio 2025 (arXiv v2)
- Link Articolo: https://arxiv.org/abs/2403.08618
- Link Codice: https://github.com/sangamesh-kodge/SAP.git
Il rumore di etichetta rappresenta un problema critico nell'apprendimento profondo, poiché i campioni di addestramento etichettati erroneamente a causa di annotazioni non professionali o attacchi avversariali riducono significativamente le prestazioni del modello. L'acquisizione di dataset perfettamente etichettati su larga scala è costosa, e l'addestramento da zero comporta un overhead computazionale considerevole. A tal fine, questo articolo propone la Scaled Activation Projection (SAP), un algoritmo di machine unlearning correttivo basato sulla decomposizione ai valori singolari (SVD). SAP mitiga il rumore di etichetta identificando un piccolo numero di campioni affidabili utilizzando la perdita di entropia incrociata e proiettando i pesi del modello in uno spazio di attivazione pulito stimato da questi campioni affidabili mediante SVD. Gli esperimenti dimostrano che SAP può ottenere miglioramenti di generalizzazione fino al 6% su dataset CIFAR con il 25% di corruzione sintetica, miglioramenti medi di circa il 3,2% rispetto ai metodi di addestramento robusto al rumore, e miglioramenti di generalizzazione del 2,31% su modelli Vision Transformer nel dataset naturalmente corrotto Clothing1M.
- Problema del Rumore di Etichetta: Gli errori di etichettatura sono ubiquitari nei dataset su larga scala, potendo derivare da:
- Errori di annotazione umana
- Errori di classificazione di sistemi automatici (come i modelli di linguaggio di grandi dimensioni)
- Attacchi malevoli di data poisoning
- Limitazioni delle Soluzioni Esistenti:
- Metodi di Data Cleaning: Richiedono l'addestramento da capo del modello, con costi computazionali elevati
- Addestramento Robusto al Rumore: Sebbene migliori la robustezza, non eliminano completamente il divario di prestazioni
- Machine Unlearning Tradizionale: Richiede una distinzione esplicita tra campioni etichettati erroneamente e campioni difficili da apprendere, difficile nell'applicazione pratica
- Motivazione della Ricerca:
- Evitare i costi computazionali elevati dell'addestramento da capo
- Evitare l'identificazione esplicita di campioni etichettati erroneamente
- Realizzare una mitigazione efficiente del rumore attraverso un singolo aggiornamento dei pesi
- Proposta dell'Algoritmo SAP: Algoritmo di machine unlearning correttivo basato su SVD che mitiga l'impatto del rumore di etichetta attraverso la proiezione di attivazione
- Selezione Automatizzata di Campioni Affidabili: Utilizza la perdita di entropia incrociata per identificare automaticamente campioni affidabili, evitando l'annotazione manuale
- Aggiornamento dei Pesi in Un Solo Passo: Realizza la correzione efficiente del modello attraverso un singolo calcolo SVD e proiezione dei pesi
- Verifica Sperimentale Estesa: Valida l'efficacia in scenari di rumore sintetico e reale, supportando molteplici architetture di modelli
Dato un dataset di addestramento DTr contenente rumore di etichetta, l'obiettivo è correggere i parametri del modello già addestrato θ∗ in modo che le prestazioni di generalizzazione sul set di test si avvicinino a quelle di un modello addestrato su dati puliti, senza necessità di riaddestramento.
Per uno strato lineare aout=ainWT, SAP proietta le attivazioni di input attraverso la matrice di allineamento di attivazione Wp:
a^out=(ainWp)WT=ain(WWpT)T=ainW^T
La regola di aggiornamento dei pesi è: W^=WWpT
Utilizza la perdita di entropia incrociata per selezionare NTrust campioni con perdita più bassa come insieme affidabile:
DTrust=argminS∑(xi,yi)∈SL(θ∗,xi,yi)
dove S={Si⊆DTr∣∣Si∣=NTrust}
- Strati Lineari: Rlinear=[(aiin)i=1NTrust]
- Strati Convoluzionali: Converte la convoluzione in moltiplicazione matriciale attraverso l'operazione unfold, Rconv=[(unfold(aiin)T)i=1NTrust]
Esegue la decomposizione SVD della matrice di rappresentazione: Rl=UlΣlVlT
Calcola i pesi di importanza:
λi=(α−1)σ~i+1ασ~i
dove σ~i=σi2/∑j=1dσj2 sono i valori singolari normalizzati, e α è il coefficiente di scaling.
Costruisce la matrice di proiezione: Wp=UΛUT, dove Λ=diag(λ1,λ2,...,λd)
- Elaborazione Automatizzata: Non richiede l'identificazione manuale di campioni errati, selezionando automaticamente campioni affidabili attraverso la funzione di perdita
- Aggiornamento Efficiente: Completa l'aggiornamento dei pesi con un singolo calcolo SVD e moltiplicazione matriciale, evitando l'ottimizzazione iterativa
- Proiezione nello Spazio di Attivazione: Sopprime l'impatto delle attivazioni rumorose attraverso la proiezione in uno spazio di attivazione pulito
- Indipendenza dall'Architettura: Applicabile a strati lineari e convoluzionali, supporta molteplici architetture di rete
- Dataset con Rumore Sintetico:
- CIFAR-10/CIFAR-100
- Tre tipi di rumore: rumore simmetrico, asimmetrico, gerarchico
- Intensità di rumore: 10% e 25%
- Dataset con Rumore nel Mondo Reale:
- Accuratezza sul set di test
- Confronto delle prestazioni con metodi baseline
- Entità del miglioramento di generalizzazione
- Retrain: Modello ideale riaddestrato su dati puliti
- Vanilla: Modello di base addestrato su dati rumorosi
- Finetune: Fine-tuning su una piccola quantità di dati puliti
- SSD: Algoritmo di unlearning basato su inibizione sinaptica selettiva
- SCRUB: Algoritmo di machine unlearning all'avanguardia
- Numero di campioni affidabili: 1000
- Intervallo di ricerca del coefficiente di scaling α: 2000, 300000
- Architetture di modelli: VGG11, ResNet18, ResNet50, ViT-B/16
- Ottimizzatore: SGD, tasso di apprendimento 0.01, decadimento dei pesi 5×10^-4
I risultati sui dataset CIFAR-10 e CIFAR-100 dimostrano:
| Dataset | Intensità Rumore | Vanilla | SAP | Miglioramento |
|---|
| CIFAR-10 | 25% | 76.68±0.48 | 82.27±0.15 | +5.59% |
| CIFAR-100 | 25% | 50.64±0.60 | 53.31±0.78 | +2.67% |
SAP supera altri metodi di unlearning in tutte le configurazioni di rumore, con miglioramenti medi dell'1.36% (CIFAR-10) e dello 0.39% (CIFAR-100).
SAP può ulteriormente migliorare le prestazioni dei metodi robusti al rumore esistenti:
| Metodo | Baseline CIFAR-10 | SAP Potenziato | Miglioramento |
|---|
| MixUp | 83.12±0.44 | 86.45±0.52 | +3.33% |
| SAM | 83.29±0.28 | 87.29±0.08 | +4.0% |
| Media | 83.69 | 87.14 | +3.45% |
Risultati su dataset con rumore reale:
| Dataset | Modello | Vanilla | SAP | Miglioramento |
|---|
| Clothing1M | ResNet50 | 67.48±0.64 | 69.64±0.57 | +2.16% |
| Clothing1M | ViT-B/16 | 69.12±0.45 | 71.43±0.60 | +2.31% |
Gli esperimenti mostrano che i benefici diminuiscono dopo aver aumentato il numero di campioni affidabili a 1000, quindi sono stati selezionati 1000 campioni per bilanciare prestazioni ed efficienza computazionale.
α=30000 mostra le migliori prestazioni in varie configurazioni di rumore sintetico; valori di α troppo grandi o troppo piccoli riducono le prestazioni.
- Efficienza Computazionale: SAP richiede solo 16 ricerche di iperparametri, mentre SCRUB ne richiede 675
- Robustezza: Prestazioni stabili in diversi tipi e intensità di rumore
- Scalabilità: Applicazione riuscita a dataset su larga scala e modelli Transformer
- Ottimizzazione del Confine Decisionale: Gli esperimenti di visualizzazione mostrano che SAP può lisciare il confine decisionale, riducendo l'overfitting
- Metodi di Data Cleaning:
- Filtraggio dei dati: Rimozione di campioni etichettati erroneamente
- Selezione di campioni: Selezione dinamica di campioni di addestramento
- Correzione di etichette: Correzione di etichette errate
- Addestramento Robusto al Rumore:
- Tecniche di regolarizzazione: Dropout, label smoothing
- Funzioni di perdita robuste: Entropia incrociata simmetrica, MAE
- Aumento dei dati: MixUp, MentorMix
- Machine Unlearning Correttivo:
- L'unlearning tradizionale si concentra sulla protezione della privacy
- L'unlearning correttivo si concentra sul miglioramento delle prestazioni di generalizzazione
Rispetto ai metodi esistenti, SAP presenta i seguenti vantaggi:
- Non richiede l'identificazione esplicita di campioni errati
- L'aggiornamento singolo evita l'instabilità dell'ottimizzazione iterativa
- Regolazione degli iperparametri semplice e alta efficienza computazionale
- Verifica dell'Efficacia: SAP migliora significativamente le prestazioni di generalizzazione del modello sia in scenari di rumore sintetico che reale
- Vantaggi di Efficienza: L'aggiornamento singolo dei pesi e la semplice regolazione degli iperparametri conferiscono a SAP vantaggi computazionali significativi
- Applicabilità Generale: Supporta molteplici architetture di rete e scale di dataset
- Valore Pratico: Può essere combinato con metodi robusti al rumore esistenti per ulteriormente migliorare le prestazioni
- Ipotesi di Campioni Affidabili: Dipende dall'ipotesi che i campioni con perdita bassa siano effettivamente etichettati correttamente
- Sensibilità agli Iperparametri: La scelta del coefficiente di scaling α ha un impatto importante sulle prestazioni
- Limitazioni del Tipo di Rumore: Principalmente orientato al rumore di etichetta, con capacità limitata nel gestire altri tipi di rumore
- Analisi Teorica Insufficiente: Manca una garanzia teorica dell'efficacia del metodo
- Analisi Teorica: Stabilire una base teorica per l'efficacia di SAP
- Selezione Adattiva dei Parametri: Sviluppare metodi per selezionare automaticamente il valore ottimale di α
- Estensione delle Applicazioni: Esplorare l'applicazione in altri tipi di rumore e compiti
- Combinazione con Altre Tecniche: Ricercare la combinazione con aumento dei dati, addestramento avversariale e altre tecniche
- Innovazione del Metodo:
- Prima applicazione di SVD al machine unlearning correttivo
- L'idea della proiezione di attivazione è innovativa ed efficace
- La selezione automatizzata di campioni affidabili evita l'intervento manuale
- Completezza Sperimentale:
- Copre molteplici tipi di rumore e dataset
- Confronto con molteplici metodi baseline
- Include esperimenti di ablazione e analisi di sensibilità ai parametri
- Valore Pratico:
- Alta efficienza computazionale, facile da implementare
- Può essere combinato con metodi esistenti
- Supporta molteplici architetture di rete
- Convincenza dei Risultati:
- Miglioramenti di prestazioni coerenti
- Verifica della significatività statistica
- L'analisi di visualizzazione migliora la comprensione
- Fondamento Teorico Debole:
- Manca l'analisi teorica dell'efficacia del metodo
- Non spiega perché la proiezione SVD possa efficacemente sopprimere il rumore
- Limitazioni delle Ipotesi:
- L'ipotesi che i campioni con perdita bassa siano etichettati correttamente potrebbe non sempre essere valida
- Le ipotesi sulla distribuzione del rumore sono piuttosto forti
- Regolazione dei Parametri:
- La scelta di α manca di guida teorica
- Dataset diversi potrebbero richiedere valori di α diversi
- Limitazioni del Confronto:
- Il confronto con i metodi robusti al rumore più recenti non è sufficientemente completo
- Manca il confronto diretto con i metodi di data cleaning
- Contributo Accademico:
- Fornisce una nuova direzione di ricerca nel campo del machine unlearning
- L'idea della proiezione di attivazione potrebbe ispirare altre applicazioni
- Applicazione Pratica:
- Fornisce uno strumento pratico per gestire il rumore di etichetta nel mondo reale
- Può essere integrato nei flussi di lavoro di addestramento esistenti
- Riproducibilità:
- Fornisce un'implementazione completa del codice
- La descrizione della configurazione sperimentale è dettagliata
- Scenari in cui la qualità dell'etichettatura del dataset non è elevata
- Situazioni in cui non è possibile re-etichettare i dati
- Applicazioni che richiedono una correzione rapida di modelli già addestrati
- Ambienti con risorse computazionali limitate
L'articolo cita lavori importanti nei campi correlati, inclusi:
- Machine Unlearning: Metodi SCRUB, SSD e altri
- Gestione del Rumore di Etichetta: MixUp, MentorMix, SAM e altri
- Data Cleaning: Confident Learning e altri
- Teoria Fondamentale: Decomposizione SVD, analisi di attivazione e altri
Valutazione Complessiva: Il metodo SAP proposto in questo articolo ha un valore importante nel trattamento del rumore di etichetta. Attraverso un design intelligente della proiezione di attivazione, realizza una correzione efficiente del modello. Sebbene presenti alcune insufficienze nell'analisi teorica, la verifica sperimentale è completa e il valore pratico è significativo, fornendo un contributo prezioso al campo correlato.