2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

Désapprentissage des Portes Dérobées par Décomposition Linéaire de Tâches

Informations Fondamentales

  • ID de l'article: 2510.14845
  • Titre: Backdoor Unlearning by Linear Task Decomposition
  • Auteurs: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • Classification: cs.LG cs.CV
  • Date de publication/Conférence: Prépublication arXiv (soumis le 16 octobre 2025)
  • Lien de l'article: https://arxiv.org/abs/2510.14845

Résumé

Les modèles fondamentaux ont révolutionné la vision par ordinateur en permettant une généralisation large sur diverses tâches. Néanmoins, ils restent hautement susceptibles aux perturbations adversariales et aux attaques par portes dérobées ciblées. L'atténuation de telles vulnérabilités demeure un défi ouvert, particulièrement étant donné que la nature à grande échelle des modèles interdit le réentraînement pour assurer la sécurité. Les approches existantes de suppression de portes dérobées reposent sur un ajustement fin coûteux pour contrecarrer le comportement nuisible, et peuvent souvent dégrader les performances sur d'autres tâches non liées. Cela soulève la question de savoir si les portes dérobées peuvent être supprimées sans compromettre les capacités générales des modèles. Dans ce travail, nous abordons cette question et étudions comment les portes dérobées sont encodées dans l'espace des poids du modèle, découvrant qu'elles sont découplées des autres tâches bénignes. Spécifiquement, cette séparation permet l'isolation et l'effacement de l'influence de la porte dérobée sur le modèle avec un impact minimal sur les performances propres. S'appuyant sur cette intuition, nous introduisons une méthode de désapprentissage simple qui exploite un tel découplage. Par des expériences extensives avec des modèles basés sur CLIP et des déclencheurs adversariales courants, nous montrons que, connaissant l'attaque, notre méthode réalise un désapprentissage pratiquement parfait, tout en conservant, en moyenne, 96% de la précision propre. De plus, nous démontrons que même lorsque l'attaque et sa présence sont inconnues, notre méthode désapprend avec succès les portes dérobées par une estimation appropriée utilisant des déclencheurs rétro-conçus. Globalement, notre méthode produit systématiquement de meilleurs compromis entre désapprentissage et précision propre comparée aux défenses de l'état de l'art actuelles.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche s'adresse au problème de la défense contre les attaques par portes dérobées dans les grands modèles fondamentaux. Les attaques par portes dérobées injectent un petit nombre d'échantillons contenant des déclencheurs spécifiques dans les données d'entraînement, causant au modèle de produire un comportement malveillant prédéterminé lorsqu'il rencontre des entrées contenant ce déclencheur, tout en fonctionnant normalement sur les entrées ordinaires.

Importance du Problème

  1. Menace de sécurité: Les attaques par portes dérobées posent une menace sérieuse pour les applications critiques pour la sécurité telles que la conduite autonome et le diagnostic médical
  2. Défi d'échelle: Le coût d'entraînement des grands modèles fondamentaux est extrêmement élevé, rendant le réentraînement complet pour éliminer les portes dérobées impraticable en pratique
  3. Exigence d'universalité: Les méthodes de défense existantes endommagent souvent les performances du modèle sur d'autres tâches, présentant des problèmes d'oubli catastrophique

Limitations des Approches Existantes

  1. Méthodes de réentraînement: Coût computationnel trop élevé, impraticable pour les modèles à grande échelle
  2. Méthodes d'ajustement fin: Conduisent facilement à l'oubli catastrophique, dégradant les performances du modèle sur les tâches propres
  3. Désapprentissage machine traditionnel: Efficacité limitée dans la tâche de suppression de portes dérobées, particulièrement mauvaises performances dans les configurations à petite échelle

Motivation de la Recherche

Les auteurs, s'appuyant sur la théorie du découplage des poids, supposent que le comportement des portes dérobées dans l'espace des poids du modèle est séparé des tâches normales, et peut donc être supprimé précisément par des opérations linéaires sans affecter les fonctionnalités normales.

Contributions Principales

  1. Intuition Théorique: Application pour la première fois de la théorie du découplage des poids à l'analyse des portes dérobées, prouvant que les connaissances des portes dérobées et les connaissances propres sont découplées dans l'espace des poids des modèles Transformer de type CLIP
  2. Méthode TBAR: Introduction de Trigger removal by Backdoor ARithmetic (TBAR), une méthode légère de désapprentissage des portes dérobées basée sur l'arithmétique des vecteurs de tâches
  3. Performance Exceptionnelle: Réalisation d'un taux de suppression de portes dérobées de 99% avec une précision propre conservée de 96% dans le cas de déclencheurs connus, avec des besoins en données deux ordres de grandeur inférieurs aux méthodes existantes
  4. Scénario d'Attaque Inconnue: Combinaison de techniques d'ingénierie inverse, suppression réussie des portes dérobées même en cas d'attaque inconnue, maintenant une précision propre supérieure à 90%

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un modèle θb infecté par une attaque par porte dérobée, l'objectif est de supprimer le comportement de la porte dérobée (réduire le taux de succès d'attaque ASR à zéro) tout en préservant au maximum les performances du modèle sur les données propres (précision propre CA).

Hypothèse Centrale: Découplage des Poids

Les auteurs proposent l'hypothèse centrale que les poids des modèles visuels fondamentaux satisfont la propriété de découplage des poids pour les attaques par portes dérobées courantes, c'est-à-dire:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

Où:

  • τc: vecteur de tâche propre
  • τt: vecteur de tâche déclencheur
  • Dc: domaine d'image propre
  • Dt: domaine d'image déclencheur

Flux d'Algorithme TBAR

1. Estimation du Vecteur Déclencheur

Ajustement fin du modèle infecté en utilisant un petit ensemble d'oubli (contenant uniquement des échantillons déclencheurs):

τ̂t = θb+t - θb

2. Suppression de la Porte Dérobée

Suppression de la porte dérobée par négation de tâche:

θ̂c = θb - ατ̂t

Où α est un coefficient scalaire contrôlant l'intensité du désapprentissage.

3. Optimisation du Coefficient

Détermination de la valeur α optimale en utilisant un petit ensemble de validation par recherche en grille.

Extension au Scénario d'Attaque Inconnue

Combinaison avec la méthode d'ingénierie inverse DECREE:

  1. Utilisation de DECREE pour récupérer les déclencheurs proxy du modèle infecté
  2. Inférence des étiquettes cibles par sondage des réponses du modèle
  3. Construction d'un ensemble d'échantillons déclencheurs proxy
  4. Application de TBAR pour la suppression de la porte dérobée

Configuration Expérimentale

Ensembles de Données

  1. Classification à tâche unique: SUN397, CIFAR100, ImageNet-1K
  2. Image-texte à grande échelle: sous-ensemble de 500k de Conceptual Captions 3M (CC3M)

Types d'Attaques par Portes Dérobées

  • BadNet: Insertion d'un bloc de bruit aléatoire 16×16 à une position aléatoire
  • Blended: Superposition d'une perturbation gaussienne sur l'image entière (ratio 8:2)
  • WaNet: Application de transformations de distorsion d'image subtiles
  • BadCLIP: Attaque par patch optimisée pour CLIP
  • SIG: Perturbation sinusoïdale le long de l'axe horizontal
  • BadMerging: Attaque conçue pour survivre après la fusion de modèles

Métriques d'Évaluation

  • Précision Propre (CA): Précision du modèle sur les données propres
  • Taux de Succès d'Attaque (ASR): Proportion d'échantillons déclencheurs prédits comme étiquette cible
  • Erreur de Découplage des Poids (ξ): Mesure de la différence entre la combinaison de vecteurs de tâches et leur application séparée

Méthodes de Comparaison

  • Ajustement fin sur données propres: CleanCLIP, RoCLIP, ajustement fin CLIP standard
  • Désapprentissage machine: Ascension de gradient (Gradient Ascent)
  • Ingénierie inverse: DECREE

Résultats Expérimentaux

Résultats Principaux

Expériences de Classification à Tâche Unique

Résultats sur CLIP ViT-B/32:

  • SUN397: ASR réduit de 91,40% à 1,25%, CA maintenue à 94,96%
  • CIFAR100: ASR réduit de 99,96% à 0,02%, CA maintenue à 96,44%
  • ImageNet-1K: ASR réduit de 93,56% à 1,96%, CA maintenue à 94,97%

Expériences Image-Texte à Grande Échelle

Résultats utilisant l'ensemble de données CC3M:

  • Efficacité des données: TBAR ne nécessite que 1,5k échantillons, tandis que les méthodes de base en nécessitent 100k
  • Avantage de performance: Supérieur aux méthodes de défense existantes sur tous les types d'attaques
  • Attaque BadCLIP: ASR réduit de 99,98% à 0,77%, CA maintenue à 56,58%

Vérification du Découplage des Poids

Par visualisation de l'erreur de découplage des poids ξ(αc, αt), confirmation que la tâche propre et la tâche déclencheur sont effectivement séparées dans l'espace des poids, validant la justesse de l'hypothèse centrale.

Expériences de Transfert

Utilisation du vecteur TBAR entraîné sur ImageNet-1K reste efficace sur CIFAR100 et SUN397:

  • CIFAR100: Déclencheur et étiquette cible partagés, taux de suppression ASR de 99,98%
  • SUN397: Déclencheur partagé uniquement, taux de suppression ASR toujours de 98,91%

Scénario d'Attaque Inconnue

Résultats combinant DECREE:

  • BadNet: ASR réduit de 84,48% à 0,33%, CA maintenue à 60,29%
  • WaNet: ASR réduit de 93,12% à 0,64%, CA maintenue à 56,85%

Expériences d'Ablation

Impact de la Taille de l'Ensemble d'Oubli

Les expériences montrent que l'augmentation de la taille de l'ensemble d'oubli (300 à 30k) a un impact limité sur l'amélioration des performances, indiquant que l'identification précise de ce qui doit être oublié est plus importante que la taille des données.

Ratio de Données Propres-Déclencheur

Utilisation de différents ratios de données propres et déclencheurs mélangées, les résultats montrent que les données purement déclencheurs obtiennent le meilleur compromis CA-ASR.

Travaux Connexes

Attaques par Empoisonnement de Données

Les attaques par portes dérobées sont une forme d'attaque par empoisonnement de données, plantant des vulnérabilités cachées dans les modèles en modifiant un petit nombre de données d'entraînement. Les modèles multimodaux comme CLIP sont des cibles principales en raison de leurs applications généralisées.

Désapprentissage Machine

Le désapprentissage machine vise à supprimer sélectivement des comportements d'apprentissage spécifiques, divisé en deux catégories: désapprentissage exact et désapprentissage approximatif. Les méthodes existantes ont une efficacité limitée dans la tâche de suppression de portes dérobées.

Interpolation des Poids et Arithmétique des Tâches

L'arithmétique des tâches encode les tâches d'apprentissage en tant que vecteurs dans l'espace des poids, permettant l'ajout, la suppression et la combinaison de tâches par des opérations linéaires. La propriété de découplage des poids est la base théorique de l'efficacité de ces opérations.

Conclusion et Discussion

Conclusions Principales

  1. Vérification théorique: Confirmation que le comportement des portes dérobées et les tâches normales sont découplés dans l'espace des poids
  2. Validité de la méthode: TBAR démontre une performance exceptionnelle sur diverses attaques et configurations
  3. Valeur pratique: Réduction significative des besoins en données et en calcul pour la défense contre les portes dérobées

Limitations

  1. Dépendance aux hypothèses: La méthode repose sur l'hypothèse de découplage des poids, pouvant ne pas s'appliquer à toutes les architectures de modèles
  2. Types d'attaques: Principalement validée sur les attaques standard, la robustesse contre les attaques plus complexes nécessite une recherche supplémentaire
  3. Dépendance à DECREE: Le scénario d'attaque inconnue dépend de la capacité de détection de DECREE, avec une efficacité limitée contre certaines attaques (comme BadCLIP)

Directions Futures

  1. Extension à d'autres architectures de modèles et paradigmes de préentraînement
  2. Recherche de défenses contre les attaques adaptatives plus complexes
  3. Exploration des applications du découplage des poids dans d'autres tâches de sécurité

Évaluation Approfondie

Avantages

  1. Innovation théorique: Application systématique pour la première fois de la théorie du découplage des poids à la défense contre les portes dérobées, offrant une nouvelle perspective théorique
  2. Simplicité de la méthode: La méthode TBAR est simple et efficace, facile à implémenter et déployer
  3. Expériences complètes: Couvrant plusieurs types d'attaques, ensembles de données et architectures de modèles, conception expérimentale suffisante
  4. Valeur pratique: Réduction significative des besoins en données, importance majeure dans le déploiement pratique

Insuffisances

  1. Limitations théoriques: L'universalité de l'hypothèse de découplage des poids nécessite une analyse théorique plus approfondie
  2. Adaptabilité aux attaques: Considération insuffisante des attaques adaptatives ciblant cette méthode de défense
  3. Analyse computationnelle: Manque d'analyse détaillée de la complexité computationnelle et de comparaison

Impact

  1. Valeur académique: Fournit une nouvelle perspective pour la recherche en défense contre les portes dérobées, pouvant inspirer davantage de méthodes de défense basées sur l'espace des poids
  2. Valeur pratique: Perspectives d'application importantes dans le déploiement de modèles à grande échelle
  3. Reproductibilité: Fournit des détails expérimentaux détaillés et d'implémentation, facilitant la reproduction

Scénarios d'Application

  1. Déploiement de modèles à grande échelle: Particulièrement adapté aux grands modèles fondamentaux qui ne peuvent pas être réentraînés
  2. Environnements aux ressources limitées: Scénarios avec ressources de données et de calcul limitées
  3. Modèles multi-tâches: Scénarios d'application nécessitant la préservation des performances multi-tâches

Références

L'article cite des travaux importants dans le domaine, notamment:

  • Ilharco et al. (2022): Travail fondateur sur l'arithmétique des tâches
  • Ortiz-Jimenez et al. (2024): Fondations théoriques du découplage des poids
  • Bansal et al. (2023): Méthode de référence pour la défense contre les portes dérobées CLIP
  • Carlini & Terzis (2021): Recherche classique sur les attaques par portes dérobées CLIP