2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

L'Oubli Automatisé Rencontre la Robustesse Adversariale via des Interventions Contraintes sur les LLMs

Informations Fondamentales

ID de l'article: 2510.03567
Titre: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Auteurs: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Classification: cs.LG cs.CL cs.CR cs.CY math.OC
Conférence de publication: 39e Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025) Atelier: Optimisation Contrainte pour l'Apprentissage Automatique (COML)
Lien de l'article: https://arxiv.org/abs/2510.03567

Résumé

Avec l'adoption généralisée des modèles de langage de grande taille (LLMs), une personnalisation accrue est nécessaire pour assurer la protection de la vie privée et la génération sécurisée. Cet article aborde cet objectif selon deux aspects clés: l'oubli des informations sensibles et la robustesse face aux attaques par contournement. Les chercheurs proposent diverses formulations d'optimisation contrainte qui unifient ces deux aspects en trouvant l'intervention minimale possible sur les poids des LLMs, rendant un ensemble de vocabulaire donné inaccessible ou renforçant la robustesse du LLM face aux attaques personnalisées en transférant partiellement les poids vers des régions plus sûres. Cette méthode ne nécessite pas de classificateur oracle généralement indisponible ou représentant une surcharge computationnelle. De manière surprenante, les auteurs découvrent que la méthode d'intervention ponctuelle contrainte la plus simple proposée surpasse l'intervention max-min en termes de performance tout en réduisant les coûts computationnels.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde deux problèmes fondamentaux:

Problème d'oubli automatisé: Comment supprimer avec un coût computationnel minimal certaines informations (ensemble de vocabulaire spécifique) de l'espace de génération d'un modèle de langage
Problème de robustesse adversariale: Comment rendre un modèle de langage plus robuste face aux attaques adversariales par contournement qui conduisent à la génération de contenu dangereux ou toxique

Importance

Avec le déploiement des LLMs dans des applications sensibles à la sécurité (telles que la modération de contenu en ligne et le traitement de données confidentielles), assurer la sécurité des résultats générés par les modèles devient une exigence critique. Les méthodes existantes présentent des compromis entre l'efficacité computationnelle et l'efficacité défensive.

Limitations des Approches Existantes

Ajustement fin et amélioration de modèle: Surcharge computationnelle importante
Défenses basées sur les invites: Fragiles et facilement affectées par les manipulations adversariales
Méthodes de sonde légère: Limitées par les données d'entraînement limitées, inefficaces contre les attaques adversariales
Méthodes d'oubli: Principalement basées sur le réentraînement partiel via des cadres maître-élève ou l'ajustement fin itératif, avec des coûts computationnels élevés

Motivation de la Recherche

Les auteurs, inspirés par les méthodes de robustesse principielles en régression, proposent un cadre unifié abordant simultanément la robustesse adversariale et le problème d'oubli, exploitant le fait que les informations sont implicitement stockées dans les chemins de l'espace latent.

Contributions Fondamentales

Cadre unifié: Propose et résout diverses formulations d'optimisation contrainte permettant aux LLMs d'être simultanément robustes aux attaques adversariales et capables d'oublier le contenu non désiré
Sans classificateur externe: Surmonte le besoin de sondes artificielles en introduisant une relaxation continue sur l'espace des invites et en effectuant des interventions contraignant directement les plongements de concepts
Amélioration des performances: Démontre une amélioration des performances par rapport aux algorithmes de défense de pointe et établit un nouvel état de l'art pour l'oubli économique sur les LLMs
Efficacité computationnelle: La méthode ponctuelle contrainte la plus simple surpasse l'intervention max-min complexe en termes de performance et de coûts computationnels

Détails de la Méthode

Définition de la Tâche

Étant donné un modèle de langage entraîné ℓ : Σ → Σ, considérez deux tâches fondamentales liées à la sécurité:

Comment supprimer avec un coût computationnel minimal certaines informations (ensemble de vocabulaire) de l'espace de génération de ℓ
Comment rendre ℓ plus robuste face aux attaques adversariales par contournement conduisant à la génération de contenu dangereux ou toxique

Trois Méthodes d'Intervention Contrainte

1. Vers la Région Sûre (TSR)

Cherche la perturbation de poids minimale pour maximiser la probabilité de réponse sûre aux invites de contournement:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

où la fonction de perte de sécurité est définie comme:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Avantages: Ne nécessite pas d'exemples de générations dangereuses, peut être résolu par descente de gradient projetée Inconvénients: Les contraintes sur la génération sûre sont souples, performance plus faible

2. Loin de la Région à Risque (ARR)

Adopte un problème max-min:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

où la fonction de perte nuisible est définie comme:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Caractéristiques: Considère les scénarios d'entrée au pire cas, utilise une relaxation probabiliste pour gérer les structures discrètes Inconvénients: Nécessite la connaissance de l'ensemble des concepts nuisibles, peut être trop conservateur

3. Région Ponctuelle Contrainte (PCR)

Stratégie ponctuelle contrainte simple basée sur l'intervention minimale, rendant les activations MLP du LLM inégales à l'intégration de sortie dangereuse pour les invites de contournement:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Avantages: Solution semi-fermée basée sur les conditions KKT, efficacité computationnelle élevée, performance optimale Inconvénients: Nécessite un ensemble de concepts à désactiver C

Solution Fermée

Pour le cas de contrainte unique, la solution fermée est:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Pour les cas multi-contraintes, un algorithme itératif traite la contrainte la plus violée.

Configuration Expérimentale

Ensembles de Données

Ensemble de données d'obéissance personnalisé: Contient 100 mots-clés interdits (tels que "abuse", "attack", "bomb" et autres vocabulaire lié à la violence et au crime)
HarmBench: Ensemble de référence standard pour les tests de défense des LLMs

Métriques d'Évaluation

Taux de Succès d'Attaque (ASR): Mesure le degré de succès des attaques adversariales (plus bas est mieux)
Niveau de Refus: Proportion de réponses complètement refusées par le modèle (plus haut est mieux)
Perplexité: Mesure le niveau d'oubli en comparant la perplexité des séquences avant et après intervention

Méthodes de Comparaison

SmoothLLM: Algorithme de défense adversariale de pointe
Self-reminder: Méthode de défense d'auto-rappel
Ligne de base sans protection: Modèle original

Modèles Testés

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

Résultats Expérimentaux

Résultats Principaux

Résultats de Robustesse Adversariale

Taux de succès d'attaque sur l'ensemble de données HarmBench:

Modèle	Sans Protection	Contrainte Ponctuelle (Cet article)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

Analyse des modèles de refus:

Modèle	Méthode Proposée (%)	SmoothLLM (%)	Self-Reminder (%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

Résultats d'Oubli Automatisé

Analyse de la perplexité des mots interdits (une perplexité plus élevée indique un meilleur oubli):

Modèle	Ensemble de Données	Ligne de Base	Intervention Ponctuelle Contrainte
Gemma-2B-IT	Obéissance	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obéissance	8.627	13.74
Llama-3-8B	Obéissance	6.48	7.735

Efficacité Computationnelle

Temps moyen par cas de test:

Modèle	Temps d'Attaque (s)	Méthode PCR (s)	SmoothLLM (s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

Découvertes Importantes

Optimalité de la méthode ponctuelle: La méthode PCR la plus simple surpasse les méthodes TSR et ARR plus complexes en termes de performance et d'efficacité computationnelle
Efficacité du cadre unifié: Une seule méthode peut traiter simultanément les problèmes d'oubli et de robustesse
Impact du nombre de couches: L'intervention sur davantage de couches MLP apporte de meilleures performances
Avantage computationnel marqué: Réduction significative des surcharges computationnelles par rapport aux méthodes existantes

Travaux Connexes

Méthodes de Génération Sécurisée

Méthodes d'ajustement fin: Surcharge computationnelle importante
Ingénierie des invites: Susceptible aux manipulations adversariales
Quantification de l'incertitude: Complexité computationnelle élevée
Amélioration de modèle: Exigences en ressources élevées

Méthodes Légères

Sondes d'espace d'activation: Limitées par les données d'entraînement
Détection adversariale: Analyse des caractéristiques statistiques des entrées perturbées

Oubli Automatisé

Cadre maître-élève: Réentraînement partiel, coûts computationnels élevés
Ajustement fin itératif: Fait face aux mêmes défis computationnels

Conclusion et Discussion

Conclusions Principales

Propose un cadre d'optimisation contrainte unifié traitant l'oubli et la robustesse des LLMs
La méthode ponctuelle atteint le meilleur équilibre entre simplicité et efficacité
Élimine le besoin de classificateur externe, réduisant les surcharges computationnelles et la complexité d'implémentation
Surpasse les méthodes de pointe existantes sur plusieurs références

Limitations

Dépendance à l'ensemble de concepts: Les méthodes PCR et ARR nécessitent un ensemble de concepts interdits prédéfini
Métriques d'évaluation: L'évaluation de l'oubli repose principalement sur la perplexité, ce qui peut être insuffisant
Capacité de généralisation: La capacité de généralisation sur différents types d'attaques et modèles nécessite une vérification supplémentaire
Analyse théorique: Manque d'analyse théorique approfondie des garanties de la méthode

Directions Futures

Développer des méthodes adaptatives ne nécessitant pas d'ensemble de concepts prédéfini
Explorer des métriques d'évaluation d'oubli plus complètes
Étudier l'extensibilité de la méthode sur des modèles de plus grande taille
Fournir des garanties théoriques de convergence et de sécurité

Évaluation Approfondie

Points Forts

Importance du problème: Aborde deux problèmes clés du déploiement sécurisé des LLMs
Innovation méthodologique: Première unification de l'oubli et de la robustesse dans un cadre d'optimisation contrainte
Valeur pratique: Fournit une solution computationnellement efficace
Évaluation complète: Évaluation exhaustive sur plusieurs modèles et ensembles de données
Fondement théorique: Fournit des solutions fermées basées sur les conditions KKT

Insuffisances

Analyse théorique insuffisante: Manque d'analyse théorique de la convergence et de l'optimalité de la méthode
Limitations d'évaluation: L'évaluation de l'oubli repose principalement sur la perplexité comme métrique unique
Diversité des attaques: Cible principalement des types spécifiques d'attaques par contournement, l'efficacité contre d'autres types d'attaques est inconnue
Impact à long terme: L'impact des interventions de poids sur les performances à long terme du modèle nécessite une investigation supplémentaire

Impact

Contribution académique: Fournit une nouvelle perspective unifiée pour la recherche en sécurité des LLMs
Valeur pratique: Fournit une solution économique de sécurité pour les organisations aux ressources limitées
Reproductibilité: Fournit des descriptions d'algorithmes détaillées et des détails d'implémentation
Extensibilité: Le cadre peut être étendu à d'autres tâches liées à la sécurité

Scénarios d'Application

Domaine éducatif: Prévention de la génération de contenu inapproprié
Soins de santé: Protection des informations médicales sensibles
Plateformes en ligne: Modération de contenu de sécurité
Applications d'entreprise: Protection des informations confidentielles

Références

L'article cite plusieurs travaux importants dans les domaines connexes, incluant l'entraînement adversarial, l'oubli automatisé, et la sécurité des LLMs, fournissant une base théorique solide et des références de comparaison pour cette recherche.

Évaluation Globale: Cet article constitue une contribution importante dans le domaine de la sécurité des LLMs, résolvant simultanément les problèmes d'oubli et de robustesse via un cadre d'optimisation contrainte unifié, tout en fournissant une solution computationnellement efficace. Malgré certaines insuffisances en analyse théorique et évaluation, sa valeur pratique et son innovation en font un progrès significatif dans ce domaine.