Label corruption, where training samples are mislabeled due to non-expert annotation or adversarial attacks, significantly degrades model performance. Acquiring large, perfectly labeled datasets is costly, and retraining models from scratch is computationally expensive. To address this, we introduce Scaled Activation Projection (SAP), a novel SVD (Singular Value Decomposition)-based corrective machine unlearning algorithm. SAP mitigates label noise by identifying a small subset of trusted samples using cross-entropy loss and projecting model weights onto a clean activation space estimated using SVD on these trusted samples. This process suppresses the noise introduced in activations due to the mislabeled samples. In our experiments, we demonstrate SAP's effectiveness on synthetic noise with different settings and real-world label noise. SAP applied to the CIFAR dataset with 25% synthetic corruption show upto 6% generalization improvements. Additionally, SAP can improve the generalization over noise robust training approaches on CIFAR dataset by ~3.2% on average. Further, we observe generalization improvements of 2.31% for a Vision Transformer model trained on naturally corrupted Clothing1M.
- ID de l'article : 2403.08618
- Titre : SAP: Corrective Machine Unlearning with Scaled Activation Projection for Label Noise Robustness
- Auteurs : Sangamesh Kodge, Deepak Ravikumar, Gobinda Saha, Kaushik Roy (Université Purdue)
- Classification : cs.LG cs.AI stat.ML
- Date de publication : 2 janvier 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2403.08618
- Lien du code : https://github.com/sangamesh-kodge/SAP.git
La corruption d'étiquettes constitue un problème majeur en apprentissage profond. Les erreurs d'étiquetage des échantillons d'entraînement, résultant d'annotations non professionnelles ou d'attaques adversariales, dégradent considérablement les performances du modèle. L'acquisition de grands ensembles de données parfaitement étiquetés s'avère coûteuse, et le réentraînement complet du modèle entraîne des frais de calcul considérables. À cet effet, cet article propose la Projection d'Activation Mise à l'Échelle (SAP), un algorithme de désapprentissage corrective basé sur la décomposition en valeurs singulières (SVD). SAP atténue le bruit d'étiquette en identifiant un petit nombre d'échantillons fiables à l'aide de la perte d'entropie croisée, puis en projetant les poids du modèle vers un espace d'activation propre estimé à partir de ces échantillons fiables via SVD. Les expériences démontrent que SAP peut obtenir jusqu'à 6 % d'amélioration de généralisation sur les ensembles de données CIFAR avec 25 % de corruption synthétique, améliorant en moyenne d'environ 3,2 % par rapport aux méthodes d'entraînement robuste au bruit, et obtenant une amélioration de généralisation de 2,31 % sur le modèle Vision Transformer sur l'ensemble de données réel Clothing1M.
- Problème du bruit d'étiquette : Les erreurs d'étiquetage sont omniprésentes dans les grands ensembles de données, pouvant provenir de :
- Erreurs d'annotation humaine
- Erreurs de jugement des systèmes d'annotation automatique (tels que les grands modèles de langage)
- Attaques malveillantes d'empoisonnement de données
- Limitations des solutions existantes :
- Méthodes de nettoyage de données : Nécessitent un réentraînement du modèle, coûteux en calcul
- Entraînement robuste au bruit : Bien qu'améliorant la robustesse, ne peut pas éliminer complètement l'écart de performance
- Désapprentissage machine traditionnel : Nécessite une distinction explicite entre les étiquettes erronées et les échantillons difficiles à apprendre, difficile dans les applications pratiques
- Motivation de la recherche :
- Éviter les coûts de calcul élevés du réentraînement complet
- Pas besoin d'identifier explicitement les échantillons mal étiquetés
- Réaliser une atténuation efficace du bruit par une mise à jour unique des poids
- Proposition de l'algorithme SAP : Algorithme de désapprentissage corrective basé sur SVD atténuant l'impact du bruit d'étiquette par projection d'activation
- Sélection automatisée d'échantillons fiables : Identification automatique des échantillons fiables via la perte d'entropie croisée, évitant l'annotation manuelle
- Mise à jour des poids en une seule étape : Correction efficace du modèle par un seul calcul SVD et projection de poids
- Vérification expérimentale étendue : Validation de l'efficacité dans les scénarios de bruit synthétique et réel, supportant plusieurs architectures de modèles
Étant donné un ensemble de données d'entraînement DTr contenant du bruit d'étiquette, l'objectif est de corriger les paramètres du modèle entraîné θ∗ de sorte que ses performances de généralisation sur l'ensemble de test se rapprochent de celles d'un modèle entraîné sur des données propres, sans nécessiter un réentraînement.
Pour une couche linéaire aout=ainWT, SAP projette les activations d'entrée via la matrice d'alignement d'activation Wp :
a^out=(ainWp)WT=ain(WWpT)T=ainW^T
La règle de mise à jour des poids est : W^=WWpT
Sélection de NTrust échantillons avec les pertes les plus faibles comme ensemble fiable via la perte d'entropie croisée :
DTrust=argminS∑(xi,yi)∈SL(θ∗,xi,yi)
où S={Si⊆DTr∣∣Si∣=NTrust}
- Couche linéaire : Rlinear=[(aiin)i=1NTrust]
- Couche de convolution : Conversion de la convolution en multiplication matricielle via l'opération unfold, Rconv=[(unfold(aiin)T)i=1NTrust]
Décomposition SVD de la matrice de représentation : Rl=UlΣlVlT
Calcul des poids d'importance :
λi=(α−1)σ~i+1ασ~i
où σ~i=σi2/∑j=1dσj2 est la valeur singulière normalisée, et α est le coefficient de mise à l'échelle.
Construction de la matrice de projection : Wp=UΛUT, où Λ=diag(λ1,λ2,...,λd)
- Traitement automatisé : Pas besoin d'identifier manuellement les échantillons erronés, sélection automatique des échantillons fiables via la fonction de perte
- Mise à jour efficace : Mise à jour des poids complétée par un seul calcul SVD et multiplication matricielle, évitant l'optimisation itérative
- Projection dans l'espace d'activation : Suppression de l'impact des activations bruitées par projection vers un espace d'activation propre
- Indépendance architecturale : Applicable aux couches linéaires et de convolution, supportant diverses architectures de réseau
- Ensembles de données avec bruit synthétique :
- CIFAR-10/CIFAR-100
- Trois types de bruit : bruit symétrique, bruit asymétrique, bruit hiérarchique
- Intensités de bruit : 10% et 25%
- Ensembles de données avec bruit du monde réel :
- Précision sur l'ensemble de test
- Comparaison des performances avec les méthodes de base
- Ampleur de l'amélioration de généralisation
- Retrain : Modèle idéal réentraîné sur des données propres
- Vanilla : Modèle de base entraîné sur des données bruitées
- Finetune : Ajustement fin sur un petit ensemble de données propres
- SSD : Algorithme de désapprentissage basé sur l'inhibition synaptique sélective
- SCRUB : Algorithme de désapprentissage machine de pointe
- Nombre d'échantillons fiables : 1000
- Plage de recherche du coefficient de mise à l'échelle α : 2000, 300000
- Architectures de modèles : VGG11, ResNet18, ResNet50, ViT-B/16
- Optimiseur : SGD, taux d'apprentissage 0,01, décroissance des poids 5×10^-4
Les résultats sur les ensembles de données CIFAR-10 et CIFAR-100 montrent :
| Ensemble de Données | Intensité du Bruit | Vanilla | SAP | Amélioration |
|---|
| CIFAR-10 | 25% | 76.68±0.48 | 82.27±0.15 | +5.59% |
| CIFAR-100 | 25% | 50.64±0.60 | 53.31±0.78 | +2.67% |
SAP surpasse toutes les autres méthodes de désapprentissage dans tous les paramètres de bruit, avec une amélioration moyenne de 1,36% (CIFAR-10) et 0,39% (CIFAR-100).
SAP peut améliorer davantage les performances des méthodes robustes au bruit existantes :
| Méthode | Base CIFAR-10 | Amélioré par SAP | Amélioration |
|---|
| MixUp | 83.12±0.44 | 86.45±0.52 | +3.33% |
| SAM | 83.29±0.28 | 87.29±0.08 | +4.0% |
| Moyenne | 83.69 | 87.14 | +3.45% |
Résultats sur les ensembles de données avec bruit réel :
| Ensemble de Données | Modèle | Vanilla | SAP | Amélioration |
|---|
| Clothing1M | ResNet50 | 67.48±0.64 | 69.64±0.57 | +2.16% |
| Clothing1M | ViT-B/16 | 69.12±0.45 | 71.43±0.60 | +2.31% |
Les expériences montrent que les rendements décroissants apparaissent après augmentation du nombre d'échantillons fiables à 1000, justifiant le choix de 1000 échantillons pour équilibrer performance et efficacité de calcul.
α=30000 présente les meilleures performances dans diverses configurations de bruit synthétique, les valeurs trop grandes ou trop petites dégradant les performances.
- Efficacité de calcul : SAP nécessite seulement 16 recherches d'hyperparamètres, tandis que SCRUB en nécessite 675
- Robustesse : Performances stables dans différents types et intensités de bruit
- Scalabilité : Application réussie aux grands ensembles de données et modèles Transformer
- Optimisation des limites de décision : Les expériences de visualisation montrent que SAP lisse les limites de décision, réduisant le surapprentissage
- Méthodes de nettoyage de données :
- Filtrage de données : Suppression des échantillons mal étiquetés
- Sélection d'échantillons : Sélection dynamique des échantillons d'entraînement
- Correction d'étiquettes : Correction des étiquettes erronées
- Entraînement robuste au bruit :
- Techniques de régularisation : Dropout, lissage d'étiquettes
- Fonctions de perte robustes : Entropie croisée symétrique, MAE
- Augmentation de données : MixUp, MentorMix
- Désapprentissage Corrective :
- Le désapprentissage traditionnel se concentre sur la protection de la vie privée
- Le désapprentissage corrective se concentre sur l'amélioration des performances de généralisation
Par rapport aux méthodes existantes, SAP présente les avantages suivants :
- Pas besoin d'identifier explicitement les échantillons erronés
- Mise à jour unique évitant l'instabilité de l'optimisation itérative
- Ajustement d'hyperparamètres simple et efficacité de calcul élevée
- Validation de l'efficacité : SAP améliore significativement les performances de généralisation du modèle dans les scénarios de bruit synthétique et réel
- Avantages d'efficacité : La mise à jour unique des poids et l'ajustement simple des hyperparamètres confèrent à SAP des avantages de calcul significatifs
- Applicabilité étendue : Support de diverses architectures de réseau et échelles d'ensembles de données
- Valeur pratique : Peut être combiné avec les méthodes robustes au bruit existantes pour améliorer davantage les performances
- Hypothèse d'échantillons fiables : Dépend de l'hypothèse que les échantillons à faible perte sont effectivement correctement étiquetés
- Sensibilité aux hyperparamètres : Le choix du coefficient de mise à l'échelle α a un impact important sur les performances
- Limitation du type de bruit : Principalement ciblé sur le bruit d'étiquette, capacité limitée à traiter d'autres types de bruit
- Analyse théorique insuffisante : Manque de garanties théoriques sur l'efficacité de la méthode
- Analyse théorique : Établir les fondations théoriques de l'efficacité de SAP
- Sélection de paramètres adaptatifs : Développer des méthodes pour sélectionner automatiquement l'α optimal
- Extension d'applications : Explorer les applications dans d'autres types de bruit et tâches
- Combinaison avec d'autres techniques : Étudier la combinaison avec l'augmentation de données, l'entraînement adversarial, etc.
- Innovation méthodologique :
- Première application de SVD au désapprentissage corrective
- Idée novatrice et efficace de projection d'activation
- Sélection automatisée d'échantillons fiables évitant l'intervention manuelle
- Suffisance expérimentale :
- Couverture de multiples types de bruit et ensembles de données
- Comparaison avec plusieurs méthodes de base
- Inclusion d'études d'ablation et d'analyses de sensibilité aux paramètres
- Valeur pratique :
- Efficacité de calcul élevée, facile à déployer
- Peut être combiné avec les méthodes existantes
- Support de diverses architectures de réseau
- Pouvoir de conviction des résultats :
- Améliorations de performance cohérentes
- Validation de la signification statistique
- Analyse de visualisation renforçant la compréhension
- Fondations théoriques faibles :
- Manque d'analyse théorique de l'efficacité de la méthode
- Pas d'explication de pourquoi la projection SVD supprime efficacement le bruit
- Limitations des hypothèses :
- L'hypothèse que les échantillons à faible perte sont correctement étiquetés peut ne pas toujours être valide
- Hypothèses fortes sur la distribution du bruit
- Ajustement des paramètres :
- Manque de guidance théorique pour le choix de α
- Différents ensembles de données peuvent nécessiter différentes valeurs de α
- Limitations de la comparaison :
- Comparaison insuffisante avec les méthodes robustes au bruit les plus récentes
- Manque de comparaison directe avec les méthodes de nettoyage de données
- Contribution académique :
- Fournit une nouvelle direction de recherche au domaine du désapprentissage machine
- L'idée de projection d'activation peut inspirer d'autres applications
- Application pratique :
- Fournit un outil pratique pour traiter le bruit d'étiquette du monde réel
- Peut être intégré dans les pipelines d'entraînement existants
- Reproductibilité :
- Fournit une implémentation de code complète
- Description détaillée de la configuration expérimentale
- Scénarios où la qualité des étiquettes de l'ensemble de données est faible
- Situations où les données ne peuvent pas être réétiquetées
- Applications nécessitant une correction rapide des modèles entraînés
- Environnements avec ressources de calcul limitées
L'article cite les travaux importants du domaine connexe, incluant :
- Désapprentissage machine : Méthodes SCRUB, SSD, etc.
- Traitement du bruit d'étiquette : MixUp, MentorMix, SAM, etc.
- Nettoyage de données : Confident Learning, etc.
- Théories fondamentales : Décomposition SVD, analyse d'activation, etc.
Évaluation Globale : La méthode SAP proposée dans cet article possède une valeur importante dans le traitement du bruit d'étiquette. Par une conception astucieuse de projection d'activation, elle réalise une correction efficace du modèle. Bien que présentant certaines insuffisances dans l'analyse théorique, la vérification expérimentale est suffisante et la valeur pratique est significative, fournissant une contribution précieuse au domaine connexe.