Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
L'Oubli Automatisé Rencontre la Robustesse Adversariale via des Interventions Contraintes sur les LLMs
Titre: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Auteurs: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Classification: cs.LG cs.CL cs.CR cs.CY math.OC
Conférence de publication: 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025) Atelier: Optimisation Contrainte pour l'Apprentissage Automatique (COML)
Avec l'adoption généralisée des modèles de langage de grande taille (LLMs), une personnalisation accrue est nécessaire pour assurer la protection de la vie privée et la génération sécurisée. Cet article aborde cet objectif selon deux aspects clés: l'oubli des informations sensibles et la robustesse face aux attaques par contournement. Les chercheurs proposent diverses formulations d'optimisation contrainte qui unifient ces deux aspects en trouvant l'intervention minimale possible sur les poids des LLMs, rendant un ensemble de vocabulaire donné inaccessible ou renforçant la robustesse du LLM face aux attaques personnalisées en transférant partiellement les poids vers des régions plus sûres. Cette méthode ne nécessite pas de classificateur oracle généralement indisponible ou représentant une surcharge computationnelle. De manière surprenante, les auteurs découvrent que la méthode d'intervention ponctuelle contrainte la plus simple proposée surpasse l'intervention max-min en termes de performance tout en réduisant les coûts computationnels.
Cette recherche aborde deux problèmes fondamentaux:
Problème d'oubli automatisé: Comment supprimer avec un coût computationnel minimal certaines informations (ensemble de vocabulaire spécifique) de l'espace de génération d'un modèle de langage
Problème de robustesse adversariale: Comment rendre un modèle de langage plus robuste face aux attaques adversariales par contournement qui conduisent à la génération de contenu dangereux ou toxique
Avec le déploiement des LLMs dans des applications sensibles à la sécurité (telles que la modération de contenu en ligne et le traitement de données confidentielles), assurer la sécurité des résultats générés par les modèles devient une exigence critique. Les méthodes existantes présentent des compromis entre l'efficacité computationnelle et l'efficacité défensive.
Ajustement fin et amélioration de modèle: Surcharge computationnelle importante
Défenses basées sur les invites: Fragiles et facilement affectées par les manipulations adversariales
Méthodes de sonde légère: Limitées par les données d'entraînement limitées, inefficaces contre les attaques adversariales
Méthodes d'oubli: Principalement basées sur le réentraînement partiel via des cadres maître-élève ou l'ajustement fin itératif, avec des coûts computationnels élevés
Les auteurs, inspirés par les méthodes de robustesse principielles en régression, proposent un cadre unifié abordant simultanément la robustesse adversariale et le problème d'oubli, exploitant le fait que les informations sont implicitement stockées dans les chemins de l'espace latent.
Cadre unifié: Propose et résout diverses formulations d'optimisation contrainte permettant aux LLMs d'être simultanément robustes aux attaques adversariales et capables d'oublier le contenu non désiré
Sans classificateur externe: Surmonte le besoin de sondes artificielles en introduisant une relaxation continue sur l'espace des invites et en effectuant des interventions contraignant directement les plongements de concepts
Amélioration des performances: Démontre une amélioration des performances par rapport aux algorithmes de défense de pointe et établit un nouvel état de l'art pour l'oubli économique sur les LLMs
Efficacité computationnelle: La méthode ponctuelle contrainte la plus simple surpasse l'intervention max-min complexe en termes de performance et de coûts computationnels
Avantages: Ne nécessite pas d'exemples de générations dangereuses, peut être résolu par descente de gradient projetée
Inconvénients: Les contraintes sur la génération sûre sont souples, performance plus faible
Caractéristiques: Considère les scénarios d'entrée au pire cas, utilise une relaxation probabiliste pour gérer les structures discrètes
Inconvénients: Nécessite la connaissance de l'ensemble des concepts nuisibles, peut être trop conservateur
Stratégie ponctuelle contrainte simple basée sur l'intervention minimale, rendant les activations MLP du LLM inégales à l'intégration de sortie dangereuse pour les invites de contournement:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
Avantages: Solution semi-fermée basée sur les conditions KKT, efficacité computationnelle élevée, performance optimale
Inconvénients: Nécessite un ensemble de concepts à désactiver C
Ensemble de données d'obéissance personnalisé: Contient 100 mots-clés interdits (tels que "abuse", "attack", "bomb" et autres vocabulaire lié à la violence et au crime)
HarmBench: Ensemble de référence standard pour les tests de défense des LLMs
Optimalité de la méthode ponctuelle: La méthode PCR la plus simple surpasse les méthodes TSR et ARR plus complexes en termes de performance et d'efficacité computationnelle
Efficacité du cadre unifié: Une seule méthode peut traiter simultanément les problèmes d'oubli et de robustesse
Impact du nombre de couches: L'intervention sur davantage de couches MLP apporte de meilleures performances
Avantage computationnel marqué: Réduction significative des surcharges computationnelles par rapport aux méthodes existantes
Analyse théorique insuffisante: Manque d'analyse théorique de la convergence et de l'optimalité de la méthode
Limitations d'évaluation: L'évaluation de l'oubli repose principalement sur la perplexité comme métrique unique
Diversité des attaques: Cible principalement des types spécifiques d'attaques par contournement, l'efficacité contre d'autres types d'attaques est inconnue
Impact à long terme: L'impact des interventions de poids sur les performances à long terme du modèle nécessite une investigation supplémentaire
L'article cite plusieurs travaux importants dans les domaines connexes, incluant l'entraînement adversarial, l'oubli automatisé, et la sécurité des LLMs, fournissant une base théorique solide et des références de comparaison pour cette recherche.
Évaluation Globale: Cet article constitue une contribution importante dans le domaine de la sécurité des LLMs, résolvant simultanément les problèmes d'oubli et de robustesse via un cadre d'optimisation contrainte unifié, tout en fournissant une solution computationnellement efficace. Malgré certaines insuffisances en analyse théorique et évaluation, sa valeur pratique et son innovation en font un progrès significatif dans ce domaine.