Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Titel: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autoren: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Klassifizierung: cs.LG cs.CL cs.CR cs.CY math.OC
Veröffentlichungskonferenz: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) besteht die Notwendigkeit für umfassendere Anpassungen, um Datenschutz und sichere Generierung zu gewährleisten. Dieses Papier befasst sich mit diesem Ziel aus zwei kritischen Aspekten: dem Vergessen sensibler Informationen und der Robustheit gegenüber Jailbreak-Angriffen. Die Forscher schlagen verschiedene Formulierungen der eingeschränkten Optimierung vor, die diese beiden Aspekte durch die Suche nach minimalen möglichen Interventionen in LLM-Gewichten vereinheitlicht lösen, indem sie einen gegebenen Vokabelsatz unerreichbar machen oder die Robustheit des LLM gegenüber maßgeschneiderten Angriffen durch Verlagerung von Teilgewichten in sicherere Bereiche verbessern. Das Verfahren erfordert keinen Oracle-Klassifizierer, der normalerweise nicht verfügbar ist oder einen Rechenaufwand darstellt. Überraschenderweise stellen die Autoren fest, dass die vorgeschlagene einfachste Punkt-Constraint-Interventionsmethode eine bessere Leistung als die Max-Min-Intervention aufweist und gleichzeitig geringere Rechenkosten verursacht.
Diese Forschung befasst sich mit zwei Kernproblemen:
Machine-Unlearning-Problem: Wie können bestimmte Informationen (spezifische Vokabelsätze) mit minimalen Rechenkosten aus dem Generierungsraum eines Sprachmodells gelöscht werden?
Adversarische Robustheit: Wie kann ein Sprachmodell robuster gegen Jailbreak-Angriffe gemacht werden, die zu gefährlichen oder toxischen Inhalten führen?
Mit der Bereitstellung von LLMs in sicherheitskritischen Anwendungen (wie Online-Content-Moderation, Verarbeitung vertraulicher Daten) wird die Gewährleistung der Sicherheit von Generierungsmodellausgaben zu einer Schlüsselanforderung. Bestehende Methoden weisen Kompromisse zwischen Recheneffizienz und Abwehreffektivität auf.
Die Autoren werden von prinzipiengestützten Robustheitsmethoden in der Regression inspiriert und schlagen einen einheitlichen Rahmen vor, der sowohl adversarische Robustheit als auch das Unlearning-Problem gleichzeitig löst, indem sie die Tatsache nutzen, dass Informationen implizit in Pfaden des latenten Raums gespeichert sind.
Einheitlicher Rahmen: Verschiedene eingeschränkte Optimierungsprobleme werden vorgeschlagen und gelöst, um LLMs gleichzeitig mit Robustheit gegen adversarische Angriffe und der Fähigkeit zum Vergessen unerwünschter Inhalte auszustatten
Keine externen Klassifizierer erforderlich: Durch die Einführung kontinuierlicher Relaxation im Prompt-Raum und die Durchführung direkter Interventionen auf Konzept-Einbettungen wird die Notwendigkeit künstlicher Sonden überwunden
Leistungsverbesserung: Zeigt Leistungsverbesserungen im Vergleich zu hochmodernen Abwehralgorithmen und setzt neue Standards für wirtschaftliches Unlearning auf LLMs
Recheneffizienz: Die einfachste Punkt-Constraint-Methode übertrifft komplexe Max-Min-Interventionen sowohl in Leistung als auch in Rechenkosten
Vorteile: Erfordert keine Beispiele gefährlicher Generierungen, lösbar durch projizierte Gradientenabstieg
Nachteile: Constraints auf sichere Generierung sind weich, schwächere Leistung
Merkmale: Berücksichtigt Worst-Case-Input-Szenarien, verwendet probabilistische Relaxation zur Handhabung diskreter Strukturen
Nachteile: Erfordert Kenntnis des schädlichen Konzeptsatzes, möglicherweise zu konservativ
Basierend auf einer einfachen Punkt-Constraint-Strategie mit minimaler Intervention, die MLP-Aktivierungen des LLM für Jailbreak-Prompts ungleich schädlichen Output-Einbettungen macht:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
Vorteile: Halbgeschlossene Lösung basierend auf KKT-Bedingungen, hohe Recheneffizienz, beste Leistung
Nachteile: Erfordert vordefinierte Konzeptsätze zum Deaktivieren
Punkt-Constraint-Methode ist optimal: Die einfachste PCR-Methode übertrifft komplexere TSR- und ARR-Methoden sowohl in Leistung als auch in Recheneffizienz
Einheitlicher Rahmen ist wirksam: Dieselbe Methode kann gleichzeitig Unlearning- und Robustheitsprobleme behandeln
Schichtenanzahl hat Auswirkungen: Interventionen in mehr MLP-Schichten führen zu besserer Leistung
Rechenvorteile sind deutlich: Signifikante Reduktion des Rechenaufwands im Vergleich zu bestehenden Methoden
Das Papier zitiert mehrere wichtige Arbeiten aus verwandten Bereichen, einschließlich adversariales Training, Machine Unlearning und LLM-Sicherheit, und bietet damit eine solide theoretische Grundlage und Vergleichsbenchmarks für diese Forschung.
Gesamtbewertung: Dies ist ein Papier mit wichtigen Beiträgen im Bereich der LLM-Sicherheit, das durch einen einheitlichen Rahmen für eingeschränkte Optimierung gleichzeitig Unlearning- und Robustheitsprobleme löst und recheneffiziente Lösungen bietet. Trotz einiger Mängel in theoretischer Analyse und Bewertung machen sein praktischer Wert und seine Innovativität es zu einem wichtigen Fortschritt in diesem Bereich.