2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

L'Oubli Automatisé Rencontre la Robustesse Adversariale via des Interventions Contraintes sur les LLMs

Informations Fondamentales

  • ID de l'article: 2510.03567
  • Titre: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • Auteurs: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • Classification: cs.LG cs.CL cs.CR cs.CY math.OC
  • Conférence de publication: 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025) Atelier: Optimisation Contrainte pour l'Apprentissage Automatique (COML)
  • Lien de l'article: https://arxiv.org/abs/2510.03567

Résumé

Avec l'adoption généralisée des modèles de langage de grande taille (LLMs), une personnalisation accrue est nécessaire pour assurer la protection de la vie privée et la génération sécurisée. Cet article aborde cet objectif selon deux aspects clés: l'oubli des informations sensibles et la robustesse face aux attaques par contournement. Les chercheurs proposent diverses formulations d'optimisation contrainte qui unifient ces deux aspects en trouvant l'intervention minimale possible sur les poids des LLMs, rendant un ensemble de vocabulaire donné inaccessible ou renforçant la robustesse du LLM face aux attaques personnalisées en transférant partiellement les poids vers des régions plus sûres. Cette méthode ne nécessite pas de classificateur oracle généralement indisponible ou représentant une surcharge computationnelle. De manière surprenante, les auteurs découvrent que la méthode d'intervention ponctuelle contrainte la plus simple proposée surpasse l'intervention max-min en termes de performance tout en réduisant les coûts computationnels.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde deux problèmes fondamentaux:

  1. Problème d'oubli automatisé: Comment supprimer avec un coût computationnel minimal certaines informations (ensemble de vocabulaire spécifique) de l'espace de génération d'un modèle de langage
  2. Problème de robustesse adversariale: Comment rendre un modèle de langage plus robuste face aux attaques adversariales par contournement qui conduisent à la génération de contenu dangereux ou toxique

Importance

Avec le déploiement des LLMs dans des applications sensibles à la sécurité (telles que la modération de contenu en ligne et le traitement de données confidentielles), assurer la sécurité des résultats générés par les modèles devient une exigence critique. Les méthodes existantes présentent des compromis entre l'efficacité computationnelle et l'efficacité défensive.

Limitations des Approches Existantes

  1. Ajustement fin et amélioration de modèle: Surcharge computationnelle importante
  2. Défenses basées sur les invites: Fragiles et facilement affectées par les manipulations adversariales
  3. Méthodes de sonde légère: Limitées par les données d'entraînement limitées, inefficaces contre les attaques adversariales
  4. Méthodes d'oubli: Principalement basées sur le réentraînement partiel via des cadres maître-élève ou l'ajustement fin itératif, avec des coûts computationnels élevés

Motivation de la Recherche

Les auteurs, inspirés par les méthodes de robustesse principielles en régression, proposent un cadre unifié abordant simultanément la robustesse adversariale et le problème d'oubli, exploitant le fait que les informations sont implicitement stockées dans les chemins de l'espace latent.

Contributions Fondamentales

  1. Cadre unifié: Propose et résout diverses formulations d'optimisation contrainte permettant aux LLMs d'être simultanément robustes aux attaques adversariales et capables d'oublier le contenu non désiré
  2. Sans classificateur externe: Surmonte le besoin de sondes artificielles en introduisant une relaxation continue sur l'espace des invites et en effectuant des interventions contraignant directement les plongements de concepts
  3. Amélioration des performances: Démontre une amélioration des performances par rapport aux algorithmes de défense de pointe et établit un nouvel état de l'art pour l'oubli économique sur les LLMs
  4. Efficacité computationnelle: La méthode ponctuelle contrainte la plus simple surpasse l'intervention max-min complexe en termes de performance et de coûts computationnels

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle de langage entraîné ℓ : Σ → Σ, considérez deux tâches fondamentales liées à la sécurité:

  1. Comment supprimer avec un coût computationnel minimal certaines informations (ensemble de vocabulaire) de l'espace de génération de ℓ
  2. Comment rendre ℓ plus robuste face aux attaques adversariales par contournement conduisant à la génération de contenu dangereux ou toxique

Trois Méthodes d'Intervention Contrainte

1. Vers la Région Sûre (TSR)

Cherche la perturbation de poids minimale pour maximiser la probabilité de réponse sûre aux invites de contournement:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

où la fonction de perte de sécurité est définie comme:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Avantages: Ne nécessite pas d'exemples de générations dangereuses, peut être résolu par descente de gradient projetée Inconvénients: Les contraintes sur la génération sûre sont souples, performance plus faible

2. Loin de la Région à Risque (ARR)

Adopte un problème max-min:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

où la fonction de perte nuisible est définie comme:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Caractéristiques: Considère les scénarios d'entrée au pire cas, utilise une relaxation probabiliste pour gérer les structures discrètes Inconvénients: Nécessite la connaissance de l'ensemble des concepts nuisibles, peut être trop conservateur

3. Région Ponctuelle Contrainte (PCR)

Stratégie ponctuelle contrainte simple basée sur l'intervention minimale, rendant les activations MLP du LLM inégales à l'intégration de sortie dangereuse pour les invites de contournement:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Avantages: Solution semi-fermée basée sur les conditions KKT, efficacité computationnelle élevée, performance optimale Inconvénients: Nécessite un ensemble de concepts à désactiver C

Solution Fermée

Pour le cas de contrainte unique, la solution fermée est:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Pour les cas multi-contraintes, un algorithme itératif traite la contrainte la plus violée.

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de données d'obéissance personnalisé: Contient 100 mots-clés interdits (tels que "abuse", "attack", "bomb" et autres vocabulaire lié à la violence et au crime)
  2. HarmBench: Ensemble de référence standard pour les tests de défense des LLMs

Métriques d'Évaluation

  1. Taux de Succès d'Attaque (ASR): Mesure le degré de succès des attaques adversariales (plus bas est mieux)
  2. Niveau de Refus: Proportion de réponses complètement refusées par le modèle (plus haut est mieux)
  3. Perplexité: Mesure le niveau d'oubli en comparant la perplexité des séquences avant et après intervention

Méthodes de Comparaison

  • SmoothLLM: Algorithme de défense adversariale de pointe
  • Self-reminder: Méthode de défense d'auto-rappel
  • Ligne de base sans protection: Modèle original

Modèles Testés

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

Résultats Expérimentaux

Résultats Principaux

Résultats de Robustesse Adversariale

Taux de succès d'attaque sur l'ensemble de données HarmBench:

ModèleSans ProtectionContrainte Ponctuelle (Cet article)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

Analyse des modèles de refus:

ModèleMéthode Proposée (%)SmoothLLM (%)Self-Reminder (%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

Résultats d'Oubli Automatisé

Analyse de la perplexité des mots interdits (une perplexité plus élevée indique un meilleur oubli):

ModèleEnsemble de DonnéesLigne de BaseIntervention Ponctuelle Contrainte
Gemma-2B-ITObéissance8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BObéissance8.62713.74
Llama-3-8BObéissance6.487.735

Efficacité Computationnelle

Temps moyen par cas de test:

ModèleTemps d'Attaque (s)Méthode PCR (s)SmoothLLM (s)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

Découvertes Importantes

  1. Optimalité de la méthode ponctuelle: La méthode PCR la plus simple surpasse les méthodes TSR et ARR plus complexes en termes de performance et d'efficacité computationnelle
  2. Efficacité du cadre unifié: Une seule méthode peut traiter simultanément les problèmes d'oubli et de robustesse
  3. Impact du nombre de couches: L'intervention sur davantage de couches MLP apporte de meilleures performances
  4. Avantage computationnel marqué: Réduction significative des surcharges computationnelles par rapport aux méthodes existantes

Travaux Connexes

Méthodes de Génération Sécurisée

  1. Méthodes d'ajustement fin: Surcharge computationnelle importante
  2. Ingénierie des invites: Susceptible aux manipulations adversariales
  3. Quantification de l'incertitude: Complexité computationnelle élevée
  4. Amélioration de modèle: Exigences en ressources élevées

Méthodes Légères

  1. Sondes d'espace d'activation: Limitées par les données d'entraînement
  2. Détection adversariale: Analyse des caractéristiques statistiques des entrées perturbées

Oubli Automatisé

  1. Cadre maître-élève: Réentraînement partiel, coûts computationnels élevés
  2. Ajustement fin itératif: Fait face aux mêmes défis computationnels

Conclusion et Discussion

Conclusions Principales

  1. Propose un cadre d'optimisation contrainte unifié traitant l'oubli et la robustesse des LLMs
  2. La méthode ponctuelle atteint le meilleur équilibre entre simplicité et efficacité
  3. Élimine le besoin de classificateur externe, réduisant les surcharges computationnelles et la complexité d'implémentation
  4. Surpasse les méthodes de pointe existantes sur plusieurs références

Limitations

  1. Dépendance à l'ensemble de concepts: Les méthodes PCR et ARR nécessitent un ensemble de concepts interdits prédéfini
  2. Métriques d'évaluation: L'évaluation de l'oubli repose principalement sur la perplexité, ce qui peut être insuffisant
  3. Capacité de généralisation: La capacité de généralisation sur différents types d'attaques et modèles nécessite une vérification supplémentaire
  4. Analyse théorique: Manque d'analyse théorique approfondie des garanties de la méthode

Directions Futures

  1. Développer des méthodes adaptatives ne nécessitant pas d'ensemble de concepts prédéfini
  2. Explorer des métriques d'évaluation d'oubli plus complètes
  3. Étudier l'extensibilité de la méthode sur des modèles de plus grande taille
  4. Fournir des garanties théoriques de convergence et de sécurité

Évaluation Approfondie

Points Forts

  1. Importance du problème: Aborde deux problèmes clés du déploiement sécurisé des LLMs
  2. Innovation méthodologique: Première unification de l'oubli et de la robustesse dans un cadre d'optimisation contrainte
  3. Valeur pratique: Fournit une solution computationnellement efficace
  4. Évaluation complète: Évaluation exhaustive sur plusieurs modèles et ensembles de données
  5. Fondement théorique: Fournit des solutions fermées basées sur les conditions KKT

Insuffisances

  1. Analyse théorique insuffisante: Manque d'analyse théorique de la convergence et de l'optimalité de la méthode
  2. Limitations d'évaluation: L'évaluation de l'oubli repose principalement sur la perplexité comme métrique unique
  3. Diversité des attaques: Cible principalement des types spécifiques d'attaques par contournement, l'efficacité contre d'autres types d'attaques est inconnue
  4. Impact à long terme: L'impact des interventions de poids sur les performances à long terme du modèle nécessite une investigation supplémentaire

Impact

  1. Contribution académique: Fournit une nouvelle perspective unifiée pour la recherche en sécurité des LLMs
  2. Valeur pratique: Fournit une solution économique de sécurité pour les organisations aux ressources limitées
  3. Reproductibilité: Fournit des descriptions d'algorithmes détaillées et des détails d'implémentation
  4. Extensibilité: Le cadre peut être étendu à d'autres tâches liées à la sécurité

Scénarios d'Application

  1. Domaine éducatif: Prévention de la génération de contenu inapproprié
  2. Soins de santé: Protection des informations médicales sensibles
  3. Plateformes en ligne: Modération de contenu de sécurité
  4. Applications d'entreprise: Protection des informations confidentielles

Références

L'article cite plusieurs travaux importants dans les domaines connexes, incluant l'entraînement adversarial, l'oubli automatisé, et la sécurité des LLMs, fournissant une base théorique solide et des références de comparaison pour cette recherche.


Évaluation Globale: Cet article constitue une contribution importante dans le domaine de la sécurité des LLMs, résolvant simultanément les problèmes d'oubli et de robustesse via un cadre d'optimisation contrainte unifié, tout en fournissant une solution computationnellement efficace. Malgré certaines insuffisances en analyse théorique et évaluation, sa valeur pratique et son innovation en font un progrès significatif dans ce domaine.