Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic
Désapprentissage des Portes Dérobées par Décomposition Linéaire de Tâches
Les modèles fondamentaux ont révolutionné la vision par ordinateur en permettant une généralisation large sur diverses tâches. Néanmoins, ils restent hautement susceptibles aux perturbations adversariales et aux attaques par portes dérobées ciblées. L'atténuation de telles vulnérabilités demeure un défi ouvert, particulièrement étant donné que la nature à grande échelle des modèles interdit le réentraînement pour assurer la sécurité. Les approches existantes de suppression de portes dérobées reposent sur un ajustement fin coûteux pour contrecarrer le comportement nuisible, et peuvent souvent dégrader les performances sur d'autres tâches non liées. Cela soulève la question de savoir si les portes dérobées peuvent être supprimées sans compromettre les capacités générales des modèles. Dans ce travail, nous abordons cette question et étudions comment les portes dérobées sont encodées dans l'espace des poids du modèle, découvrant qu'elles sont découplées des autres tâches bénignes. Spécifiquement, cette séparation permet l'isolation et l'effacement de l'influence de la porte dérobée sur le modèle avec un impact minimal sur les performances propres. S'appuyant sur cette intuition, nous introduisons une méthode de désapprentissage simple qui exploite un tel découplage. Par des expériences extensives avec des modèles basés sur CLIP et des déclencheurs adversariales courants, nous montrons que, connaissant l'attaque, notre méthode réalise un désapprentissage pratiquement parfait, tout en conservant, en moyenne, 96% de la précision propre. De plus, nous démontrons que même lorsque l'attaque et sa présence sont inconnues, notre méthode désapprend avec succès les portes dérobées par une estimation appropriée utilisant des déclencheurs rétro-conçus. Globalement, notre méthode produit systématiquement de meilleurs compromis entre désapprentissage et précision propre comparée aux défenses de l'état de l'art actuelles.
Cette recherche s'adresse au problème de la défense contre les attaques par portes dérobées dans les grands modèles fondamentaux. Les attaques par portes dérobées injectent un petit nombre d'échantillons contenant des déclencheurs spécifiques dans les données d'entraînement, causant au modèle de produire un comportement malveillant prédéterminé lorsqu'il rencontre des entrées contenant ce déclencheur, tout en fonctionnant normalement sur les entrées ordinaires.
Menace de sécurité: Les attaques par portes dérobées posent une menace sérieuse pour les applications critiques pour la sécurité telles que la conduite autonome et le diagnostic médical
Défi d'échelle: Le coût d'entraînement des grands modèles fondamentaux est extrêmement élevé, rendant le réentraînement complet pour éliminer les portes dérobées impraticable en pratique
Exigence d'universalité: Les méthodes de défense existantes endommagent souvent les performances du modèle sur d'autres tâches, présentant des problèmes d'oubli catastrophique
Méthodes de réentraînement: Coût computationnel trop élevé, impraticable pour les modèles à grande échelle
Méthodes d'ajustement fin: Conduisent facilement à l'oubli catastrophique, dégradant les performances du modèle sur les tâches propres
Désapprentissage machine traditionnel: Efficacité limitée dans la tâche de suppression de portes dérobées, particulièrement mauvaises performances dans les configurations à petite échelle
Les auteurs, s'appuyant sur la théorie du découplage des poids, supposent que le comportement des portes dérobées dans l'espace des poids du modèle est séparé des tâches normales, et peut donc être supprimé précisément par des opérations linéaires sans affecter les fonctionnalités normales.
Intuition Théorique: Application pour la première fois de la théorie du découplage des poids à l'analyse des portes dérobées, prouvant que les connaissances des portes dérobées et les connaissances propres sont découplées dans l'espace des poids des modèles Transformer de type CLIP
Méthode TBAR: Introduction de Trigger removal by Backdoor ARithmetic (TBAR), une méthode légère de désapprentissage des portes dérobées basée sur l'arithmétique des vecteurs de tâches
Performance Exceptionnelle: Réalisation d'un taux de suppression de portes dérobées de 99% avec une précision propre conservée de 96% dans le cas de déclencheurs connus, avec des besoins en données deux ordres de grandeur inférieurs aux méthodes existantes
Scénario d'Attaque Inconnue: Combinaison de techniques d'ingénierie inverse, suppression réussie des portes dérobées même en cas d'attaque inconnue, maintenant une précision propre supérieure à 90%
Étant donné un modèle θb infecté par une attaque par porte dérobée, l'objectif est de supprimer le comportement de la porte dérobée (réduire le taux de succès d'attaque ASR à zéro) tout en préservant au maximum les performances du modèle sur les données propres (précision propre CA).
Les auteurs proposent l'hypothèse centrale que les poids des modèles visuels fondamentaux satisfont la propriété de découplage des poids pour les attaques par portes dérobées courantes, c'est-à-dire:
Par visualisation de l'erreur de découplage des poids ξ(αc, αt), confirmation que la tâche propre et la tâche déclencheur sont effectivement séparées dans l'espace des poids, validant la justesse de l'hypothèse centrale.
Les expériences montrent que l'augmentation de la taille de l'ensemble d'oubli (300 à 30k) a un impact limité sur l'amélioration des performances, indiquant que l'identification précise de ce qui doit être oublié est plus importante que la taille des données.
Utilisation de différents ratios de données propres et déclencheurs mélangées, les résultats montrent que les données purement déclencheurs obtiennent le meilleur compromis CA-ASR.
Les attaques par portes dérobées sont une forme d'attaque par empoisonnement de données, plantant des vulnérabilités cachées dans les modèles en modifiant un petit nombre de données d'entraînement. Les modèles multimodaux comme CLIP sont des cibles principales en raison de leurs applications généralisées.
Le désapprentissage machine vise à supprimer sélectivement des comportements d'apprentissage spécifiques, divisé en deux catégories: désapprentissage exact et désapprentissage approximatif. Les méthodes existantes ont une efficacité limitée dans la tâche de suppression de portes dérobées.
L'arithmétique des tâches encode les tâches d'apprentissage en tant que vecteurs dans l'espace des poids, permettant l'ajout, la suppression et la combinaison de tâches par des opérations linéaires. La propriété de découplage des poids est la base théorique de l'efficacité de ces opérations.
Dépendance aux hypothèses: La méthode repose sur l'hypothèse de découplage des poids, pouvant ne pas s'appliquer à toutes les architectures de modèles
Types d'attaques: Principalement validée sur les attaques standard, la robustesse contre les attaques plus complexes nécessite une recherche supplémentaire
Dépendance à DECREE: Le scénario d'attaque inconnue dépend de la capacité de détection de DECREE, avec une efficacité limitée contre certaines attaques (comme BadCLIP)
Innovation théorique: Application systématique pour la première fois de la théorie du découplage des poids à la défense contre les portes dérobées, offrant une nouvelle perspective théorique
Simplicité de la méthode: La méthode TBAR est simple et efficace, facile à implémenter et déployer
Expériences complètes: Couvrant plusieurs types d'attaques, ensembles de données et architectures de modèles, conception expérimentale suffisante
Valeur pratique: Réduction significative des besoins en données, importance majeure dans le déploiement pratique
Valeur académique: Fournit une nouvelle perspective pour la recherche en défense contre les portes dérobées, pouvant inspirer davantage de méthodes de défense basées sur l'espace des poids
Valeur pratique: Perspectives d'application importantes dans le déploiement de modèles à grande échelle
Reproductibilité: Fournit des détails expérimentaux détaillés et d'implémentation, facilitant la reproduction