Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Titolo: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autori: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Classificazione: cs.LG cs.CL cs.CR cs.CY math.OC
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Con l'adozione diffusa dei modelli di linguaggio di grandi dimensioni (LLM), è necessaria una personalizzazione maggiore per garantire la protezione della privacy e la generazione sicura. Questo articolo affronta questo obiettivo da due aspetti critici: l'oblio delle informazioni sensibili e la robustezza agli attacchi jailbreak. I ricercatori propongono varie formulazioni di ottimizzazione vincolata che affrontano unificatamente entrambi gli aspetti ricercando il minimo possibile intervento sui pesi dell'LLM, rendendo un insieme di vocabolario dato irraggiungibile o aumentando la robustezza dell'LLM agli attacchi personalizzati trasferendo parzialmente i pesi verso regioni più sicure. Il metodo non richiede classificatori oracolari che solitamente non sono disponibili o rappresentano un sovraccarico computazionale. Sorprendentemente, gli autori scoprono che il metodo di intervento con vincolo puntuale più semplice proposto ha prestazioni migliori rispetto all'intervento max-min, con costi computazionali inferiori.
Problema dell'Oblio Automatico: Come rimuovere determinate informazioni (insiemi di vocabolario specifici) dallo spazio di generazione di un modello di linguaggio con il minimo costo computazionale
Problema della Robustezza Avversariale: Come rendere un modello di linguaggio più robusto agli attacchi avversariali jailbreak che portano a contenuti pericolosi o tossici
Con il dispiegamento degli LLM in applicazioni sensibili alla sicurezza (come la moderazione dei contenuti online e l'elaborazione di dati confidenziali), garantire la sicurezza dell'output dei modelli generativi è diventato un requisito critico. I metodi esistenti presentano compromessi tra efficienza computazionale e efficacia della difesa.
Fine-tuning e Potenziamento del Modello: Elevato sovraccarico computazionale
Difese Basate su Prompt: Fragili e facilmente influenzabili da manipolazioni avversariali
Metodi di Sonda Leggera: Limitati da dati di addestramento limitati, inefficaci contro attacchi avversariali
Metodi di Oblio: Principalmente attraverso riaddestramenti parziali di framework insegnante-studente o fine-tuning iterativo, con elevati costi computazionali
Gli autori, ispirati da metodi di robustezza principiati nella regressione, propongono un framework unificato che affronta simultaneamente la robustezza avversariale e il problema dell'oblio, sfruttando il fatto che le informazioni sono implicitamente archiviate nei percorsi dello spazio latente.
Framework Unificato: Propone e risolve vari problemi di ottimizzazione vincolata che conferiscono agli LLM sia robustezza agli attacchi avversariali che la capacità di dimenticare contenuti indesiderati
Nessun Classificatore Esterno Richiesto: Supera la necessità di sonde artificiali introducendo rilassamenti continui nello spazio dei prompt ed eseguendo interventi che vincolano direttamente gli embedding dei concetti
Miglioramento delle Prestazioni: Dimostra miglioramenti delle prestazioni rispetto agli algoritmi di difesa all'avanguardia e stabilisce un nuovo stato dell'arte per l'oblio economico su LLM
Efficienza Computazionale: Il metodo di vincolo puntuale più semplice supera gli interventi max-min complessi sia in termini di prestazioni che di costi computazionali
Vantaggi: Non richiede esempi di generazione pericolosa, risolvibile mediante discesa del gradiente proiettato
Svantaggi: Il vincolo sulla generazione sicura è un vincolo soft, prestazioni più deboli
Caratteristiche: Considera scenari di input nel caso peggiore, utilizza rilassamenti probabilistici per gestire strutture discrete
Svantaggi: Richiede la conoscenza dell'insieme di concetti dannosi, potrebbe essere eccessivamente conservatore
Strategia di vincolo puntuale semplice basata su intervento minimo, che rende l'attivazione MLP dell'LLM non uguale all'embedding di output pericoloso per i prompt jailbreak:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
Vantaggi: Soluzione semi-chiusa basata su condizioni KKT, elevata efficienza computazionale, prestazioni migliori
Svantaggi: Richiede un insieme di concetti disabilitati predefinito C
Dataset di Obbedienza Personalizzato: Contiene 100 parole chiave disabilitate (come "abuse", "attack", "bomb" e altre parole chiave correlate a violenza e criminalità)
HarmBench: Set di benchmark standard per la difesa degli LLM
Metodo di Vincolo Puntuale Ottimale: Il metodo PCR più semplice supera i metodi TSR e ARR più complessi sia in prestazioni che in efficienza computazionale
Framework Unificato Efficace: Lo stesso metodo può affrontare simultaneamente i problemi di oblio e robustezza
Impatto del Numero di Strati: L'intervento su più strati MLP porta a prestazioni migliori
Vantaggio Computazionale Evidente: Riduzione significativa del sovraccarico computazionale rispetto ai metodi esistenti
L'articolo cita numerosi lavori importanti in campi correlati, inclusa la ricerca recente in addestramento avversariale, oblio automatico e sicurezza degli LLM, fornendo una base teorica solida e benchmark di confronto per questo studio.
Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della sicurezza degli LLM, che affronta simultaneamente i problemi di oblio e robustezza attraverso un framework unificato di ottimizzazione vincolata, fornendo una soluzione computazionalmente efficiente. Nonostante alcune insufficienze nell'analisi teorica e nella valutazione, il suo valore pratico e l'innovatività lo rendono un progresso importante in questo campo.