2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Informazioni Fondamentali

ID Articolo: 2510.03567
Titolo: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autori: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Classificazione: cs.LG cs.CL cs.CR cs.CY math.OC
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Link Articolo: https://arxiv.org/abs/2510.03567

Riassunto

Con l'adozione diffusa dei modelli di linguaggio di grandi dimensioni (LLM), è necessaria una personalizzazione maggiore per garantire la protezione della privacy e la generazione sicura. Questo articolo affronta questo obiettivo da due aspetti critici: l'oblio delle informazioni sensibili e la robustezza agli attacchi jailbreak. I ricercatori propongono varie formulazioni di ottimizzazione vincolata che affrontano unificatamente entrambi gli aspetti ricercando il minimo possibile intervento sui pesi dell'LLM, rendendo un insieme di vocabolario dato irraggiungibile o aumentando la robustezza dell'LLM agli attacchi personalizzati trasferendo parzialmente i pesi verso regioni più sicure. Il metodo non richiede classificatori oracolari che solitamente non sono disponibili o rappresentano un sovraccarico computazionale. Sorprendentemente, gli autori scoprono che il metodo di intervento con vincolo puntuale più semplice proposto ha prestazioni migliori rispetto all'intervento max-min, con costi computazionali inferiori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio affronta due problemi fondamentali:

Problema dell'Oblio Automatico: Come rimuovere determinate informazioni (insiemi di vocabolario specifici) dallo spazio di generazione di un modello di linguaggio con il minimo costo computazionale
Problema della Robustezza Avversariale: Come rendere un modello di linguaggio più robusto agli attacchi avversariali jailbreak che portano a contenuti pericolosi o tossici

Importanza

Con il dispiegamento degli LLM in applicazioni sensibili alla sicurezza (come la moderazione dei contenuti online e l'elaborazione di dati confidenziali), garantire la sicurezza dell'output dei modelli generativi è diventato un requisito critico. I metodi esistenti presentano compromessi tra efficienza computazionale e efficacia della difesa.

Limitazioni dei Metodi Esistenti

Fine-tuning e Potenziamento del Modello: Elevato sovraccarico computazionale
Difese Basate su Prompt: Fragili e facilmente influenzabili da manipolazioni avversariali
Metodi di Sonda Leggera: Limitati da dati di addestramento limitati, inefficaci contro attacchi avversariali
Metodi di Oblio: Principalmente attraverso riaddestramenti parziali di framework insegnante-studente o fine-tuning iterativo, con elevati costi computazionali

Motivazione della Ricerca

Gli autori, ispirati da metodi di robustezza principiati nella regressione, propongono un framework unificato che affronta simultaneamente la robustezza avversariale e il problema dell'oblio, sfruttando il fatto che le informazioni sono implicitamente archiviate nei percorsi dello spazio latente.

Contributi Fondamentali

Framework Unificato: Propone e risolve vari problemi di ottimizzazione vincolata che conferiscono agli LLM sia robustezza agli attacchi avversariali che la capacità di dimenticare contenuti indesiderati
Nessun Classificatore Esterno Richiesto: Supera la necessità di sonde artificiali introducendo rilassamenti continui nello spazio dei prompt ed eseguendo interventi che vincolano direttamente gli embedding dei concetti
Miglioramento delle Prestazioni: Dimostra miglioramenti delle prestazioni rispetto agli algoritmi di difesa all'avanguardia e stabilisce un nuovo stato dell'arte per l'oblio economico su LLM
Efficienza Computazionale: Il metodo di vincolo puntuale più semplice supera gli interventi max-min complessi sia in termini di prestazioni che di costi computazionali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello di linguaggio addestrato ℓ : Σ → Σ, si considerano due compiti fondamentali correlati alla sicurezza:

Come rimuovere determinate informazioni (insiemi di vocabolario) dallo spazio di generazione di ℓ con il minimo costo computazionale
Come rendere ℓ più robusto agli attacchi avversariali jailbreak che portano a contenuti pericolosi o tossici

Tre Metodi di Intervento Vincolato

1. Verso la Regione Sicura (TSR)

Ricerca la minima perturbazione dei pesi per massimizzare la probabilità di risposta sicura ai prompt jailbreak:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

dove la funzione di perdita di sicurezza è definita come:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Vantaggi: Non richiede esempi di generazione pericolosa, risolvibile mediante discesa del gradiente proiettato Svantaggi: Il vincolo sulla generazione sicura è un vincolo soft, prestazioni più deboli

2. Lontano dalla Regione Rischiosa (ARR)

Adotta un problema max-min:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

dove la funzione di perdita dannosa è definita come:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Caratteristiche: Considera scenari di input nel caso peggiore, utilizza rilassamenti probabilistici per gestire strutture discrete Svantaggi: Richiede la conoscenza dell'insieme di concetti dannosi, potrebbe essere eccessivamente conservatore

3. Regione con Vincolo Puntuale (PCR)

Strategia di vincolo puntuale semplice basata su intervento minimo, che rende l'attivazione MLP dell'LLM non uguale all'embedding di output pericoloso per i prompt jailbreak:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Vantaggi: Soluzione semi-chiusa basata su condizioni KKT, elevata efficienza computazionale, prestazioni migliori Svantaggi: Richiede un insieme di concetti disabilitati predefinito C

Soluzione in Forma Chiusa

Per il caso di vincolo singolo, la soluzione in forma chiusa è:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Nel caso di vincoli multipli, si utilizza un algoritmo iterativo per gestire il vincolo più violato.

Configurazione Sperimentale

Dataset

Dataset di Obbedienza Personalizzato: Contiene 100 parole chiave disabilitate (come "abuse", "attack", "bomb" e altre parole chiave correlate a violenza e criminalità)
HarmBench: Set di benchmark standard per la difesa degli LLM

Metriche di Valutazione

Attack Success Rate (ASR): Misura il successo degli attacchi avversariali (più basso è meglio)
Livello di Rifiuto: Proporzione di rifiuto completo della risposta del modello (più alto è meglio)
Perplessità: Misura il livello di oblio confrontando la perplessità delle sequenze prima e dopo l'intervento

Metodi di Confronto

SmoothLLM: Algoritmo di difesa avversariale all'avanguardia
Self-reminder: Metodo di difesa con auto-promemoria
Baseline Senza Protezione: Modello originale

Modelli Testati

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

Risultati Sperimentali

Risultati Principali

Risultati della Robustezza Avversariale

Attack Success Rate sul dataset HarmBench:

Modello	Senza Protezione	Vincolo Puntuale (Questo Lavoro)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

Analisi dei Modelli di Rifiuto:

Modello	Metodo Proposto (%)	SmoothLLM (%)	Self-Reminder (%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

Risultati dell'Oblio Automatico

Analisi della Perplessità delle Parole Disabilitate (perplessità più alta indica migliore oblio):

Modello	Dataset	Baseline	Intervento con Vincolo Puntuale
Gemma-2B-IT	Obedience	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obedience	8.627	13.74
Llama-3-8B	Obedience	6.48	7.735

Efficienza Computazionale

Tempo medio per caso di test:

Modello	Tempo di Attacco (s)	Metodo PCR (s)	SmoothLLM (s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

Scoperte Importanti

Metodo di Vincolo Puntuale Ottimale: Il metodo PCR più semplice supera i metodi TSR e ARR più complessi sia in prestazioni che in efficienza computazionale
Framework Unificato Efficace: Lo stesso metodo può affrontare simultaneamente i problemi di oblio e robustezza
Impatto del Numero di Strati: L'intervento su più strati MLP porta a prestazioni migliori
Vantaggio Computazionale Evidente: Riduzione significativa del sovraccarico computazionale rispetto ai metodi esistenti

Lavori Correlati

Metodi di Generazione Sicura

Metodi di Fine-tuning: Elevato sovraccarico computazionale
Ingegneria dei Prompt: Facilmente influenzabile da manipolazioni avversariali
Quantificazione dell'Incertezza: Complessità computazionale elevata
Potenziamento del Modello: Elevati requisiti di risorse

Metodi Leggeri

Sonde nello Spazio di Attivazione: Limitate dai dati di addestramento
Rilevamento Avversariale: Analisi delle caratteristiche statistiche degli input perturbati

Oblio Automatico

Framework Insegnante-Studente: Riaddestramenti parziali, elevati costi computazionali
Fine-tuning Iterativo: Affrontano le stesse sfide computazionali

Conclusioni e Discussione

Conclusioni Principali

Propone un framework di ottimizzazione vincolata che affronta unificatamente l'oblio degli LLM e la robustezza
Il metodo di vincolo puntuale raggiunge il miglior equilibrio tra semplicità ed efficacia
Non richiede classificatori esterni, riducendo il sovraccarico computazionale e la complessità di implementazione
Supera i metodi all'avanguardia su più benchmark

Limitazioni

Dipendenza dall'Insieme di Concetti: I metodi PCR e ARR richiedono insiemi di concetti disabilitati predefiniti
Metriche di Valutazione: La valutazione dell'oblio si basa principalmente sulla perplessità, potrebbe non essere sufficientemente completa
Capacità di Generalizzazione: La capacità di generalizzazione su diversi tipi di attacchi e modelli richiede ulteriore verifica
Analisi Teorica: Manca un'analisi teorica approfondita delle garanzie del metodo

Direzioni Future

Sviluppare metodi adattivi che non richiedono insiemi di concetti predefiniti
Esplorare metriche di valutazione dell'oblio più complete
Ricercare la scalabilità del metodo su modelli di dimensioni maggiori
Fornire garanzie teoriche di convergenza e sicurezza

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Affronta due problemi critici nel dispiegamento sicuro degli LLM
Innovazione del Metodo: Primo a unificare oblio e robustezza in un framework di ottimizzazione vincolata
Valore Pratico: Fornisce una soluzione computazionalmente efficiente
Valutazione Completa: Valutazione completa su più modelli e dataset
Fondamento Teorico: Fornisce soluzioni in forma chiusa basate su condizioni KKT

Insufficienze

Analisi Teorica Inadeguata: Manca l'analisi della convergenza e dell'ottimalità del metodo
Limitazioni della Valutazione: La valutazione dell'oblio si basa principalmente su una singola metrica di perplessità
Diversità degli Attacchi: Principalmente focalizzato su specifici tipi di attacchi jailbreak, l'efficacia su altri tipi di attacchi è sconosciuta
Impatto a Lungo Termine: L'impatto degli interventi sui pesi sulle prestazioni a lungo termine del modello richiede ulteriore ricerca

Impatto

Contributo Accademico: Fornisce una nuova prospettiva unificata per la ricerca sulla sicurezza degli LLM
Valore Pratico: Fornisce una soluzione di sicurezza economica per organizzazioni con risorse limitate
Riproducibilità: Fornisce descrizioni dettagliate degli algoritmi e dettagli di implementazione
Estensibilità: Il framework è estensibile ad altri compiti correlati alla sicurezza

Scenari Applicabili

Settore Educativo: Prevenzione della generazione di contenuti inappropriati
Assistenza Sanitaria: Protezione delle informazioni mediche sensibili
Piattaforme Online: Moderazione della sicurezza dei contenuti
Applicazioni Aziendali: Protezione delle informazioni confidenziali

Bibliografia

L'articolo cita numerosi lavori importanti in campi correlati, inclusa la ricerca recente in addestramento avversariale, oblio automatico e sicurezza degli LLM, fornendo una base teorica solida e benchmark di confronto per questo studio.

Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della sicurezza degli LLM, che affronta simultaneamente i problemi di oblio e robustezza attraverso un framework unificato di ottimizzazione vincolata, fornendo una soluzione computazionalmente efficiente. Nonostante alcune insufficienze nell'analisi teorica e nella valutazione, il suo valore pratico e l'innovatività lo rendono un progresso importante in questo campo.