2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Grundinformationen

Papier-ID: 2510.03567
Titel: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autoren: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Klassifizierung: cs.LG cs.CL cs.CR cs.CY math.OC
Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Papierlink: https://arxiv.org/abs/2510.03567

Zusammenfassung

Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) besteht die Notwendigkeit für umfassendere Anpassungen, um Datenschutz und sichere Generierung zu gewährleisten. Dieses Papier befasst sich mit diesem Ziel aus zwei kritischen Aspekten: dem Vergessen sensibler Informationen und der Robustheit gegenüber Jailbreak-Angriffen. Die Forscher schlagen verschiedene Formulierungen der eingeschränkten Optimierung vor, die diese beiden Aspekte durch die Suche nach minimalen möglichen Interventionen in LLM-Gewichten vereinheitlicht lösen, indem sie einen gegebenen Vokabelsatz unerreichbar machen oder die Robustheit des LLM gegenüber maßgeschneiderten Angriffen durch Verlagerung von Teilgewichten in sicherere Bereiche verbessern. Das Verfahren erfordert keinen Oracle-Klassifizierer, der normalerweise nicht verfügbar ist oder einen Rechenaufwand darstellt. Überraschenderweise stellen die Autoren fest, dass die vorgeschlagene einfachste Punkt-Constraint-Interventionsmethode eine bessere Leistung als die Max-Min-Intervention aufweist und gleichzeitig geringere Rechenkosten verursacht.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich mit zwei Kernproblemen:

Machine-Unlearning-Problem: Wie können bestimmte Informationen (spezifische Vokabelsätze) mit minimalen Rechenkosten aus dem Generierungsraum eines Sprachmodells gelöscht werden?
Adversarische Robustheit: Wie kann ein Sprachmodell robuster gegen Jailbreak-Angriffe gemacht werden, die zu gefährlichen oder toxischen Inhalten führen?

Bedeutung

Mit der Bereitstellung von LLMs in sicherheitskritischen Anwendungen (wie Online-Content-Moderation, Verarbeitung vertraulicher Daten) wird die Gewährleistung der Sicherheit von Generierungsmodellausgaben zu einer Schlüsselanforderung. Bestehende Methoden weisen Kompromisse zwischen Recheneffizienz und Abwehreffektivität auf.

Einschränkungen bestehender Methoden

Fine-Tuning und Modellverbesserung: Hoher Rechenaufwand
Prompt-basierte Abwehr: Anfällig und leicht durch adversarische Manipulationen zu beeinflussen
Leichtgewichtige Sonden-Methoden: Begrenzt durch begrenzte Trainingsdaten, unwirksam gegen adversarische Angriffe
Unlearning-Methoden: Hauptsächlich durch teilweises Neutraining oder iteratives Fine-Tuning über Lehrer-Schüler-Rahmen, hohe Rechenkosten

Forschungsmotivation

Die Autoren werden von prinzipiengestützten Robustheitsmethoden in der Regression inspiriert und schlagen einen einheitlichen Rahmen vor, der sowohl adversarische Robustheit als auch das Unlearning-Problem gleichzeitig löst, indem sie die Tatsache nutzen, dass Informationen implizit in Pfaden des latenten Raums gespeichert sind.

Kernbeiträge

Einheitlicher Rahmen: Verschiedene eingeschränkte Optimierungsprobleme werden vorgeschlagen und gelöst, um LLMs gleichzeitig mit Robustheit gegen adversarische Angriffe und der Fähigkeit zum Vergessen unerwünschter Inhalte auszustatten
Keine externen Klassifizierer erforderlich: Durch die Einführung kontinuierlicher Relaxation im Prompt-Raum und die Durchführung direkter Interventionen auf Konzept-Einbettungen wird die Notwendigkeit künstlicher Sonden überwunden
Leistungsverbesserung: Zeigt Leistungsverbesserungen im Vergleich zu hochmodernen Abwehralgorithmen und setzt neue Standards für wirtschaftliches Unlearning auf LLMs
Recheneffizienz: Die einfachste Punkt-Constraint-Methode übertrifft komplexe Max-Min-Interventionen sowohl in Leistung als auch in Rechenkosten

Methodische Details

Aufgabendefinition

Gegeben ein trainiertes Sprachmodell ℓ : Σ → Σ, werden zwei grundlegende sicherheitsbezogene Aufgaben berücksichtigt:

Wie können bestimmte Informationen (Vokabelsätze) mit minimalen Rechenkosten aus dem Generierungsraum von ℓ gelöscht werden?
Wie kann ℓ robuster gegen Jailbreak-Angriffe gemacht werden, die zu gefährlichen oder toxischen Inhalten führen?

Drei Arten von Constraint-Interventionen

1. Toward Safe Region (TSR)

Suche nach minimaler Gewichtsstörung zur Maximierung der Wahrscheinlichkeit sicherer Reaktionen auf Jailbreak-Prompts:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

wobei die Sicherheitsverlustfunktion definiert ist als:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Vorteile: Erfordert keine Beispiele gefährlicher Generierungen, lösbar durch projizierte Gradientenabstieg Nachteile: Constraints auf sichere Generierung sind weich, schwächere Leistung

2. Away from Risky Region (ARR)

Verwendet ein Max-Min-Problem:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

Die Verlustfunktion für schädliche Inhalte ist definiert als:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Merkmale: Berücksichtigt Worst-Case-Input-Szenarien, verwendet probabilistische Relaxation zur Handhabung diskreter Strukturen Nachteile: Erfordert Kenntnis des schädlichen Konzeptsatzes, möglicherweise zu konservativ

3. Point Constraint Region (PCR)

Basierend auf einer einfachen Punkt-Constraint-Strategie mit minimaler Intervention, die MLP-Aktivierungen des LLM für Jailbreak-Prompts ungleich schädlichen Output-Einbettungen macht:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Vorteile: Halbgeschlossene Lösung basierend auf KKT-Bedingungen, hohe Recheneffizienz, beste Leistung Nachteile: Erfordert vordefinierte Konzeptsätze zum Deaktivieren

Geschlossene Lösung

Für den Fall mit einzelnem Constraint ist die geschlossene Lösung:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Für mehrere Constraints wird ein iterativer Algorithmus zur Behandlung der am meisten verletzten Constraints verwendet.

Experimentelle Einrichtung

Datensätze

Benutzerdefinierter Gehorsams-Datensatz: Enthält 100 verbotene Schlüsselwörter (wie "abuse", "attack", "bomb" und andere gewalt- und kriminalitätsbezogene Vokabeln)
HarmBench: Standard-LLM-Abwehr-Benchmark-Datensatz

Bewertungsmetriken

Attack Success Rate (ASR): Misst den Erfolg adversarischer Angriffe (niedriger ist besser)
Ablehnungsrate: Anteil der Fälle, in denen das Modell vollständig antwortet (höher ist besser)
Perplexität: Misst das Unlearning-Niveau durch Vergleich der Perplexität von Sequenzen vor und nach der Intervention

Vergleichsmethoden

SmoothLLM: Hochmoderner adversarischer Abwehralgorithmus
Self-reminder: Self-Reminder-Abwehrmethode
Ungeschützte Baseline: Originalmodell

Getestete Modelle

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

Experimentelle Ergebnisse

Hauptergebnisse

Adversarische Robustheitsergebnisse

Attack Success Rate auf dem HarmBench-Datensatz:

Modell	Ungeschützt	Punkt-Constraint (dieses Papier)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

Ablehnungsmuster-Analyse:

Modell	Dieses Papier (%)	SmoothLLM (%)	Self-Reminder (%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

Machine-Unlearning-Ergebnisse

Perplexitätsanalyse verbotener Wörter (höhere Perplexität zeigt besseres Unlearning an):

Modell	Datensatz	Baseline	Punkt-Constraint-Intervention
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

Recheneffizienz

Durchschnittliche Zeit pro Testfall:

Modell	Angriffszeit (s)	PCR-Methode (s)	SmoothLLM (s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

Wichtige Erkenntnisse

Punkt-Constraint-Methode ist optimal: Die einfachste PCR-Methode übertrifft komplexere TSR- und ARR-Methoden sowohl in Leistung als auch in Recheneffizienz
Einheitlicher Rahmen ist wirksam: Dieselbe Methode kann gleichzeitig Unlearning- und Robustheitsprobleme behandeln
Schichtenanzahl hat Auswirkungen: Interventionen in mehr MLP-Schichten führen zu besserer Leistung
Rechenvorteile sind deutlich: Signifikante Reduktion des Rechenaufwands im Vergleich zu bestehenden Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Ein einheitlicher Rahmen für eingeschränkte Optimierung wird vorgeschlagen, der LLM-Unlearning und Robustheit behandelt
Die Punkt-Constraint-Methode erreicht das beste Gleichgewicht zwischen Einfachheit und Effektivität
Keine externen Klassifizierer erforderlich, was Rechenaufwand und Implementierungskomplexität reduziert
Übertrifft hochmoderne Methoden auf mehreren Benchmarks

Einschränkungen

Konzeptsatz-Abhängigkeit: PCR- und ARR-Methoden erfordern vordefinierte verbotene Konzeptsätze
Bewertungsmetriken: Unlearning-Bewertung basiert hauptsächlich auf Perplexität, möglicherweise nicht umfassend genug
Generalisierungsfähigkeit: Die Generalisierungsfähigkeit über verschiedene Angriffstypen und Modelle hinweg erfordert weitere Überprüfung
Theoretische Analyse: Mangel an tiefgehender Analyse theoretischer Garantien der Methode

Zukünftige Richtungen

Entwicklung adaptiver Methoden, die keine vordefinierten Konzeptsätze erfordern
Erforschung umfassenderer Unlearning-Bewertungsmetriken
Untersuchung der Skalierbarkeit der Methode auf größere Modelle
Bereitstellung theoretischer Konvergenz- und Sicherheitsgarantien

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Behandelt zwei kritische Probleme bei der sicheren Bereitstellung von LLMs
Methodische Innovation: Erste Vereinheitlichung von Unlearning und Robustheit in einem Rahmen für eingeschränkte Optimierung
Praktischer Wert: Bietet recheneffiziente Lösungen
Umfassende Experimente: Umfassende Bewertung über mehrere Modelle und Datensätze
Theoretische Grundlage: Bietet geschlossene Lösungen basierend auf KKT-Bedingungen

Mängel

Unzureichende theoretische Analyse: Mangel an Analyse der Konvergenz und Optimalität der Methode
Bewertungsbeschränkungen: Unlearning-Bewertung basiert hauptsächlich auf einzelner Perplexitätsmetrik
Angriffsvielfalt: Hauptsächlich auf spezifische Jailbreak-Angriffstypen ausgerichtet, Effektivität gegen andere Angriffstypen unbekannt
Langzeitauswirkungen: Auswirkungen von Gewichtsstörungen auf die langfristige Modellleistung erfordern weitere Forschung

Auswirkungen

Akademischer Beitrag: Bietet neue einheitliche Perspektive für LLM-Sicherheitsforschung
Praktischer Wert: Bietet wirtschaftliche Sicherheitslösungen für ressourcenbegrenzte Organisationen
Reproduzierbarkeit: Bietet detaillierte Algorithmusbeschreibungen und Implementierungsdetails
Erweiterbarkeit: Rahmen ist auf andere sicherheitsbezogene Aufgaben erweiterbar

Anwendungsszenarien

Bildungsbereich: Verhinderung der Generierung unangemessener Inhalte
Gesundheitswesen: Schutz sensibler medizinischer Informationen
Online-Plattformen: Content-Sicherheitsmoderation
Unternehmensanwendungen: Schutz vertraulicher Informationen

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten aus verwandten Bereichen, einschließlich adversariales Training, Machine Unlearning und LLM-Sicherheit, und bietet damit eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Forschung.

Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der LLM-Sicherheit, das durch einen einheitlichen Rahmen für eingeschränkte Optimierung gleichzeitig Unlearning- und Robustheitsprobleme löst und recheneffiziente Lösungen bietet. Trotz einiger Mängel in theoretischer Analyse und Bewertung machen sein praktischer Wert und seine Innovativität es zu einem wichtigen Fortschritt in diesem Bereich.