2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Grundinformationen

  • Papier-ID: 2510.03567
  • Titel: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • Autoren: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • Klassifizierung: cs.LG cs.CL cs.CR cs.CY math.OC
  • Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
  • Papierlink: https://arxiv.org/abs/2510.03567

Zusammenfassung

Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) besteht die Notwendigkeit für umfassendere Anpassungen, um Datenschutz und sichere Generierung zu gewährleisten. Dieses Papier befasst sich mit diesem Ziel aus zwei kritischen Aspekten: dem Vergessen sensibler Informationen und der Robustheit gegenüber Jailbreak-Angriffen. Die Forscher schlagen verschiedene Formulierungen der eingeschränkten Optimierung vor, die diese beiden Aspekte durch die Suche nach minimalen möglichen Interventionen in LLM-Gewichten vereinheitlicht lösen, indem sie einen gegebenen Vokabelsatz unerreichbar machen oder die Robustheit des LLM gegenüber maßgeschneiderten Angriffen durch Verlagerung von Teilgewichten in sicherere Bereiche verbessern. Das Verfahren erfordert keinen Oracle-Klassifizierer, der normalerweise nicht verfügbar ist oder einen Rechenaufwand darstellt. Überraschenderweise stellen die Autoren fest, dass die vorgeschlagene einfachste Punkt-Constraint-Interventionsmethode eine bessere Leistung als die Max-Min-Intervention aufweist und gleichzeitig geringere Rechenkosten verursacht.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit zwei Kernproblemen:

  1. Machine-Unlearning-Problem: Wie können bestimmte Informationen (spezifische Vokabelsätze) mit minimalen Rechenkosten aus dem Generierungsraum eines Sprachmodells gelöscht werden?
  2. Adversarische Robustheit: Wie kann ein Sprachmodell robuster gegen Jailbreak-Angriffe gemacht werden, die zu gefährlichen oder toxischen Inhalten führen?

Bedeutung

Mit der Bereitstellung von LLMs in sicherheitskritischen Anwendungen (wie Online-Content-Moderation, Verarbeitung vertraulicher Daten) wird die Gewährleistung der Sicherheit von Generierungsmodellausgaben zu einer Schlüsselanforderung. Bestehende Methoden weisen Kompromisse zwischen Recheneffizienz und Abwehreffektivität auf.

Einschränkungen bestehender Methoden

  1. Fine-Tuning und Modellverbesserung: Hoher Rechenaufwand
  2. Prompt-basierte Abwehr: Anfällig und leicht durch adversarische Manipulationen zu beeinflussen
  3. Leichtgewichtige Sonden-Methoden: Begrenzt durch begrenzte Trainingsdaten, unwirksam gegen adversarische Angriffe
  4. Unlearning-Methoden: Hauptsächlich durch teilweises Neutraining oder iteratives Fine-Tuning über Lehrer-Schüler-Rahmen, hohe Rechenkosten

Forschungsmotivation

Die Autoren werden von prinzipiengestützten Robustheitsmethoden in der Regression inspiriert und schlagen einen einheitlichen Rahmen vor, der sowohl adversarische Robustheit als auch das Unlearning-Problem gleichzeitig löst, indem sie die Tatsache nutzen, dass Informationen implizit in Pfaden des latenten Raums gespeichert sind.

Kernbeiträge

  1. Einheitlicher Rahmen: Verschiedene eingeschränkte Optimierungsprobleme werden vorgeschlagen und gelöst, um LLMs gleichzeitig mit Robustheit gegen adversarische Angriffe und der Fähigkeit zum Vergessen unerwünschter Inhalte auszustatten
  2. Keine externen Klassifizierer erforderlich: Durch die Einführung kontinuierlicher Relaxation im Prompt-Raum und die Durchführung direkter Interventionen auf Konzept-Einbettungen wird die Notwendigkeit künstlicher Sonden überwunden
  3. Leistungsverbesserung: Zeigt Leistungsverbesserungen im Vergleich zu hochmodernen Abwehralgorithmen und setzt neue Standards für wirtschaftliches Unlearning auf LLMs
  4. Recheneffizienz: Die einfachste Punkt-Constraint-Methode übertrifft komplexe Max-Min-Interventionen sowohl in Leistung als auch in Rechenkosten

Methodische Details

Aufgabendefinition

Gegeben ein trainiertes Sprachmodell ℓ : Σ → Σ, werden zwei grundlegende sicherheitsbezogene Aufgaben berücksichtigt:

  1. Wie können bestimmte Informationen (Vokabelsätze) mit minimalen Rechenkosten aus dem Generierungsraum von ℓ gelöscht werden?
  2. Wie kann ℓ robuster gegen Jailbreak-Angriffe gemacht werden, die zu gefährlichen oder toxischen Inhalten führen?

Drei Arten von Constraint-Interventionen

1. Toward Safe Region (TSR)

Suche nach minimaler Gewichtsstörung zur Maximierung der Wahrscheinlichkeit sicherer Reaktionen auf Jailbreak-Prompts:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

wobei die Sicherheitsverlustfunktion definiert ist als:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Vorteile: Erfordert keine Beispiele gefährlicher Generierungen, lösbar durch projizierte Gradientenabstieg Nachteile: Constraints auf sichere Generierung sind weich, schwächere Leistung

2. Away from Risky Region (ARR)

Verwendet ein Max-Min-Problem:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

Die Verlustfunktion für schädliche Inhalte ist definiert als:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Merkmale: Berücksichtigt Worst-Case-Input-Szenarien, verwendet probabilistische Relaxation zur Handhabung diskreter Strukturen Nachteile: Erfordert Kenntnis des schädlichen Konzeptsatzes, möglicherweise zu konservativ

3. Point Constraint Region (PCR)

Basierend auf einer einfachen Punkt-Constraint-Strategie mit minimaler Intervention, die MLP-Aktivierungen des LLM für Jailbreak-Prompts ungleich schädlichen Output-Einbettungen macht:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Vorteile: Halbgeschlossene Lösung basierend auf KKT-Bedingungen, hohe Recheneffizienz, beste Leistung Nachteile: Erfordert vordefinierte Konzeptsätze zum Deaktivieren

Geschlossene Lösung

Für den Fall mit einzelnem Constraint ist die geschlossene Lösung:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Für mehrere Constraints wird ein iterativer Algorithmus zur Behandlung der am meisten verletzten Constraints verwendet.

Experimentelle Einrichtung

Datensätze

  1. Benutzerdefinierter Gehorsams-Datensatz: Enthält 100 verbotene Schlüsselwörter (wie "abuse", "attack", "bomb" und andere gewalt- und kriminalitätsbezogene Vokabeln)
  2. HarmBench: Standard-LLM-Abwehr-Benchmark-Datensatz

Bewertungsmetriken

  1. Attack Success Rate (ASR): Misst den Erfolg adversarischer Angriffe (niedriger ist besser)
  2. Ablehnungsrate: Anteil der Fälle, in denen das Modell vollständig antwortet (höher ist besser)
  3. Perplexität: Misst das Unlearning-Niveau durch Vergleich der Perplexität von Sequenzen vor und nach der Intervention

Vergleichsmethoden

  • SmoothLLM: Hochmoderner adversarischer Abwehralgorithmus
  • Self-reminder: Self-Reminder-Abwehrmethode
  • Ungeschützte Baseline: Originalmodell

Getestete Modelle

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

Experimentelle Ergebnisse

Hauptergebnisse

Adversarische Robustheitsergebnisse

Attack Success Rate auf dem HarmBench-Datensatz:

ModellUngeschütztPunkt-Constraint (dieses Papier)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

Ablehnungsmuster-Analyse:

ModellDieses Papier (%)SmoothLLM (%)Self-Reminder (%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

Machine-Unlearning-Ergebnisse

Perplexitätsanalyse verbotener Wörter (höhere Perplexität zeigt besseres Unlearning an):

ModellDatensatzBaselinePunkt-Constraint-Intervention
Gemma-2B-ITObedience8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BObedience8.62713.74
Llama-3-8BObedience6.487.735

Recheneffizienz

Durchschnittliche Zeit pro Testfall:

ModellAngriffszeit (s)PCR-Methode (s)SmoothLLM (s)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

Wichtige Erkenntnisse

  1. Punkt-Constraint-Methode ist optimal: Die einfachste PCR-Methode übertrifft komplexere TSR- und ARR-Methoden sowohl in Leistung als auch in Recheneffizienz
  2. Einheitlicher Rahmen ist wirksam: Dieselbe Methode kann gleichzeitig Unlearning- und Robustheitsprobleme behandeln
  3. Schichtenanzahl hat Auswirkungen: Interventionen in mehr MLP-Schichten führen zu besserer Leistung
  4. Rechenvorteile sind deutlich: Signifikante Reduktion des Rechenaufwands im Vergleich zu bestehenden Methoden

Verwandte Arbeiten

Sichere Generierungsmethoden

  1. Fine-Tuning-Methoden: Hoher Rechenaufwand
  2. Prompt-Engineering: Anfällig für adversarische Manipulationen
  3. Unsicherheitsquantifizierung: Rechenkomplex
  4. Modellverbesserung: Hohe Ressourcenausstattung erforderlich

Leichtgewichtige Methoden

  1. Aktivierungsraum-Sonden: Begrenzt durch Trainingsdaten
  2. Adversarische Erkennung: Analyse statistischer Merkmale gestörter Eingaben

Machine Unlearning

  1. Lehrer-Schüler-Rahmen: Teilweises Neutraining, hohe Rechenkosten
  2. Iteratives Fine-Tuning: Ähnliche Rechenkomplikationen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Ein einheitlicher Rahmen für eingeschränkte Optimierung wird vorgeschlagen, der LLM-Unlearning und Robustheit behandelt
  2. Die Punkt-Constraint-Methode erreicht das beste Gleichgewicht zwischen Einfachheit und Effektivität
  3. Keine externen Klassifizierer erforderlich, was Rechenaufwand und Implementierungskomplexität reduziert
  4. Übertrifft hochmoderne Methoden auf mehreren Benchmarks

Einschränkungen

  1. Konzeptsatz-Abhängigkeit: PCR- und ARR-Methoden erfordern vordefinierte verbotene Konzeptsätze
  2. Bewertungsmetriken: Unlearning-Bewertung basiert hauptsächlich auf Perplexität, möglicherweise nicht umfassend genug
  3. Generalisierungsfähigkeit: Die Generalisierungsfähigkeit über verschiedene Angriffstypen und Modelle hinweg erfordert weitere Überprüfung
  4. Theoretische Analyse: Mangel an tiefgehender Analyse theoretischer Garantien der Methode

Zukünftige Richtungen

  1. Entwicklung adaptiver Methoden, die keine vordefinierten Konzeptsätze erfordern
  2. Erforschung umfassenderer Unlearning-Bewertungsmetriken
  3. Untersuchung der Skalierbarkeit der Methode auf größere Modelle
  4. Bereitstellung theoretischer Konvergenz- und Sicherheitsgarantien

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Behandelt zwei kritische Probleme bei der sicheren Bereitstellung von LLMs
  2. Methodische Innovation: Erste Vereinheitlichung von Unlearning und Robustheit in einem Rahmen für eingeschränkte Optimierung
  3. Praktischer Wert: Bietet recheneffiziente Lösungen
  4. Umfassende Experimente: Umfassende Bewertung über mehrere Modelle und Datensätze
  5. Theoretische Grundlage: Bietet geschlossene Lösungen basierend auf KKT-Bedingungen

Mängel

  1. Unzureichende theoretische Analyse: Mangel an Analyse der Konvergenz und Optimalität der Methode
  2. Bewertungsbeschränkungen: Unlearning-Bewertung basiert hauptsächlich auf einzelner Perplexitätsmetrik
  3. Angriffsvielfalt: Hauptsächlich auf spezifische Jailbreak-Angriffstypen ausgerichtet, Effektivität gegen andere Angriffstypen unbekannt
  4. Langzeitauswirkungen: Auswirkungen von Gewichtsstörungen auf die langfristige Modellleistung erfordern weitere Forschung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue einheitliche Perspektive für LLM-Sicherheitsforschung
  2. Praktischer Wert: Bietet wirtschaftliche Sicherheitslösungen für ressourcenbegrenzte Organisationen
  3. Reproduzierbarkeit: Bietet detaillierte Algorithmusbeschreibungen und Implementierungsdetails
  4. Erweiterbarkeit: Rahmen ist auf andere sicherheitsbezogene Aufgaben erweiterbar

Anwendungsszenarien

  1. Bildungsbereich: Verhinderung der Generierung unangemessener Inhalte
  2. Gesundheitswesen: Schutz sensibler medizinischer Informationen
  3. Online-Plattformen: Content-Sicherheitsmoderation
  4. Unternehmensanwendungen: Schutz vertraulicher Informationen

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten aus verwandten Bereichen, einschließlich adversariales Training, Machine Unlearning und LLM-Sicherheit, und bietet damit eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Forschung.


Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der LLM-Sicherheit, das durch einen einheitlichen Rahmen für eingeschränkte Optimierung gleichzeitig Unlearning- und Robustheitsprobleme löst und recheneffiziente Lösungen bietet. Trotz einiger Mängel in theoretischer Analyse und Bewertung machen sein praktischer Wert und seine Innovativität es zu einem wichtigen Fortschritt in diesem Bereich.