2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Informazioni Fondamentali

  • ID Articolo: 2510.03567
  • Titolo: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • Autori: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • Classificazione: cs.LG cs.CL cs.CR cs.CY math.OC
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
  • Link Articolo: https://arxiv.org/abs/2510.03567

Riassunto

Con l'adozione diffusa dei modelli di linguaggio di grandi dimensioni (LLM), è necessaria una personalizzazione maggiore per garantire la protezione della privacy e la generazione sicura. Questo articolo affronta questo obiettivo da due aspetti critici: l'oblio delle informazioni sensibili e la robustezza agli attacchi jailbreak. I ricercatori propongono varie formulazioni di ottimizzazione vincolata che affrontano unificatamente entrambi gli aspetti ricercando il minimo possibile intervento sui pesi dell'LLM, rendendo un insieme di vocabolario dato irraggiungibile o aumentando la robustezza dell'LLM agli attacchi personalizzati trasferendo parzialmente i pesi verso regioni più sicure. Il metodo non richiede classificatori oracolari che solitamente non sono disponibili o rappresentano un sovraccarico computazionale. Sorprendentemente, gli autori scoprono che il metodo di intervento con vincolo puntuale più semplice proposto ha prestazioni migliori rispetto all'intervento max-min, con costi computazionali inferiori.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo studio affronta due problemi fondamentali:

  1. Problema dell'Oblio Automatico: Come rimuovere determinate informazioni (insiemi di vocabolario specifici) dallo spazio di generazione di un modello di linguaggio con il minimo costo computazionale
  2. Problema della Robustezza Avversariale: Come rendere un modello di linguaggio più robusto agli attacchi avversariali jailbreak che portano a contenuti pericolosi o tossici

Importanza

Con il dispiegamento degli LLM in applicazioni sensibili alla sicurezza (come la moderazione dei contenuti online e l'elaborazione di dati confidenziali), garantire la sicurezza dell'output dei modelli generativi è diventato un requisito critico. I metodi esistenti presentano compromessi tra efficienza computazionale e efficacia della difesa.

Limitazioni dei Metodi Esistenti

  1. Fine-tuning e Potenziamento del Modello: Elevato sovraccarico computazionale
  2. Difese Basate su Prompt: Fragili e facilmente influenzabili da manipolazioni avversariali
  3. Metodi di Sonda Leggera: Limitati da dati di addestramento limitati, inefficaci contro attacchi avversariali
  4. Metodi di Oblio: Principalmente attraverso riaddestramenti parziali di framework insegnante-studente o fine-tuning iterativo, con elevati costi computazionali

Motivazione della Ricerca

Gli autori, ispirati da metodi di robustezza principiati nella regressione, propongono un framework unificato che affronta simultaneamente la robustezza avversariale e il problema dell'oblio, sfruttando il fatto che le informazioni sono implicitamente archiviate nei percorsi dello spazio latente.

Contributi Fondamentali

  1. Framework Unificato: Propone e risolve vari problemi di ottimizzazione vincolata che conferiscono agli LLM sia robustezza agli attacchi avversariali che la capacità di dimenticare contenuti indesiderati
  2. Nessun Classificatore Esterno Richiesto: Supera la necessità di sonde artificiali introducendo rilassamenti continui nello spazio dei prompt ed eseguendo interventi che vincolano direttamente gli embedding dei concetti
  3. Miglioramento delle Prestazioni: Dimostra miglioramenti delle prestazioni rispetto agli algoritmi di difesa all'avanguardia e stabilisce un nuovo stato dell'arte per l'oblio economico su LLM
  4. Efficienza Computazionale: Il metodo di vincolo puntuale più semplice supera gli interventi max-min complessi sia in termini di prestazioni che di costi computazionali

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello di linguaggio addestrato ℓ : Σ → Σ, si considerano due compiti fondamentali correlati alla sicurezza:

  1. Come rimuovere determinate informazioni (insiemi di vocabolario) dallo spazio di generazione di ℓ con il minimo costo computazionale
  2. Come rendere ℓ più robusto agli attacchi avversariali jailbreak che portano a contenuti pericolosi o tossici

Tre Metodi di Intervento Vincolato

1. Verso la Regione Sicura (TSR)

Ricerca la minima perturbazione dei pesi per massimizzare la probabilità di risposta sicura ai prompt jailbreak:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

dove la funzione di perdita di sicurezza è definita come:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Vantaggi: Non richiede esempi di generazione pericolosa, risolvibile mediante discesa del gradiente proiettato Svantaggi: Il vincolo sulla generazione sicura è un vincolo soft, prestazioni più deboli

2. Lontano dalla Regione Rischiosa (ARR)

Adotta un problema max-min:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

dove la funzione di perdita dannosa è definita come:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Caratteristiche: Considera scenari di input nel caso peggiore, utilizza rilassamenti probabilistici per gestire strutture discrete Svantaggi: Richiede la conoscenza dell'insieme di concetti dannosi, potrebbe essere eccessivamente conservatore

3. Regione con Vincolo Puntuale (PCR)

Strategia di vincolo puntuale semplice basata su intervento minimo, che rende l'attivazione MLP dell'LLM non uguale all'embedding di output pericoloso per i prompt jailbreak:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Vantaggi: Soluzione semi-chiusa basata su condizioni KKT, elevata efficienza computazionale, prestazioni migliori Svantaggi: Richiede un insieme di concetti disabilitati predefinito C

Soluzione in Forma Chiusa

Per il caso di vincolo singolo, la soluzione in forma chiusa è:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

Nel caso di vincoli multipli, si utilizza un algoritmo iterativo per gestire il vincolo più violato.

Configurazione Sperimentale

Dataset

  1. Dataset di Obbedienza Personalizzato: Contiene 100 parole chiave disabilitate (come "abuse", "attack", "bomb" e altre parole chiave correlate a violenza e criminalità)
  2. HarmBench: Set di benchmark standard per la difesa degli LLM

Metriche di Valutazione

  1. Attack Success Rate (ASR): Misura il successo degli attacchi avversariali (più basso è meglio)
  2. Livello di Rifiuto: Proporzione di rifiuto completo della risposta del modello (più alto è meglio)
  3. Perplessità: Misura il livello di oblio confrontando la perplessità delle sequenze prima e dopo l'intervento

Metodi di Confronto

  • SmoothLLM: Algoritmo di difesa avversariale all'avanguardia
  • Self-reminder: Metodo di difesa con auto-promemoria
  • Baseline Senza Protezione: Modello originale

Modelli Testati

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

Risultati Sperimentali

Risultati Principali

Risultati della Robustezza Avversariale

Attack Success Rate sul dataset HarmBench:

ModelloSenza ProtezioneVincolo Puntuale (Questo Lavoro)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

Analisi dei Modelli di Rifiuto:

ModelloMetodo Proposto (%)SmoothLLM (%)Self-Reminder (%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

Risultati dell'Oblio Automatico

Analisi della Perplessità delle Parole Disabilitate (perplessità più alta indica migliore oblio):

ModelloDatasetBaselineIntervento con Vincolo Puntuale
Gemma-2B-ITObedience8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BObedience8.62713.74
Llama-3-8BObedience6.487.735

Efficienza Computazionale

Tempo medio per caso di test:

ModelloTempo di Attacco (s)Metodo PCR (s)SmoothLLM (s)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

Scoperte Importanti

  1. Metodo di Vincolo Puntuale Ottimale: Il metodo PCR più semplice supera i metodi TSR e ARR più complessi sia in prestazioni che in efficienza computazionale
  2. Framework Unificato Efficace: Lo stesso metodo può affrontare simultaneamente i problemi di oblio e robustezza
  3. Impatto del Numero di Strati: L'intervento su più strati MLP porta a prestazioni migliori
  4. Vantaggio Computazionale Evidente: Riduzione significativa del sovraccarico computazionale rispetto ai metodi esistenti

Lavori Correlati

Metodi di Generazione Sicura

  1. Metodi di Fine-tuning: Elevato sovraccarico computazionale
  2. Ingegneria dei Prompt: Facilmente influenzabile da manipolazioni avversariali
  3. Quantificazione dell'Incertezza: Complessità computazionale elevata
  4. Potenziamento del Modello: Elevati requisiti di risorse

Metodi Leggeri

  1. Sonde nello Spazio di Attivazione: Limitate dai dati di addestramento
  2. Rilevamento Avversariale: Analisi delle caratteristiche statistiche degli input perturbati

Oblio Automatico

  1. Framework Insegnante-Studente: Riaddestramenti parziali, elevati costi computazionali
  2. Fine-tuning Iterativo: Affrontano le stesse sfide computazionali

Conclusioni e Discussione

Conclusioni Principali

  1. Propone un framework di ottimizzazione vincolata che affronta unificatamente l'oblio degli LLM e la robustezza
  2. Il metodo di vincolo puntuale raggiunge il miglior equilibrio tra semplicità ed efficacia
  3. Non richiede classificatori esterni, riducendo il sovraccarico computazionale e la complessità di implementazione
  4. Supera i metodi all'avanguardia su più benchmark

Limitazioni

  1. Dipendenza dall'Insieme di Concetti: I metodi PCR e ARR richiedono insiemi di concetti disabilitati predefiniti
  2. Metriche di Valutazione: La valutazione dell'oblio si basa principalmente sulla perplessità, potrebbe non essere sufficientemente completa
  3. Capacità di Generalizzazione: La capacità di generalizzazione su diversi tipi di attacchi e modelli richiede ulteriore verifica
  4. Analisi Teorica: Manca un'analisi teorica approfondita delle garanzie del metodo

Direzioni Future

  1. Sviluppare metodi adattivi che non richiedono insiemi di concetti predefiniti
  2. Esplorare metriche di valutazione dell'oblio più complete
  3. Ricercare la scalabilità del metodo su modelli di dimensioni maggiori
  4. Fornire garanzie teoriche di convergenza e sicurezza

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Affronta due problemi critici nel dispiegamento sicuro degli LLM
  2. Innovazione del Metodo: Primo a unificare oblio e robustezza in un framework di ottimizzazione vincolata
  3. Valore Pratico: Fornisce una soluzione computazionalmente efficiente
  4. Valutazione Completa: Valutazione completa su più modelli e dataset
  5. Fondamento Teorico: Fornisce soluzioni in forma chiusa basate su condizioni KKT

Insufficienze

  1. Analisi Teorica Inadeguata: Manca l'analisi della convergenza e dell'ottimalità del metodo
  2. Limitazioni della Valutazione: La valutazione dell'oblio si basa principalmente su una singola metrica di perplessità
  3. Diversità degli Attacchi: Principalmente focalizzato su specifici tipi di attacchi jailbreak, l'efficacia su altri tipi di attacchi è sconosciuta
  4. Impatto a Lungo Termine: L'impatto degli interventi sui pesi sulle prestazioni a lungo termine del modello richiede ulteriore ricerca

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva unificata per la ricerca sulla sicurezza degli LLM
  2. Valore Pratico: Fornisce una soluzione di sicurezza economica per organizzazioni con risorse limitate
  3. Riproducibilità: Fornisce descrizioni dettagliate degli algoritmi e dettagli di implementazione
  4. Estensibilità: Il framework è estensibile ad altri compiti correlati alla sicurezza

Scenari Applicabili

  1. Settore Educativo: Prevenzione della generazione di contenuti inappropriati
  2. Assistenza Sanitaria: Protezione delle informazioni mediche sensibili
  3. Piattaforme Online: Moderazione della sicurezza dei contenuti
  4. Applicazioni Aziendali: Protezione delle informazioni confidenziali

Bibliografia

L'articolo cita numerosi lavori importanti in campi correlati, inclusa la ricerca recente in addestramento avversariale, oblio automatico e sicurezza degli LLM, fornendo una base teorica solida e benchmark di confronto per questo studio.


Valutazione Complessiva: Questo è un articolo con importanti contributi nel campo della sicurezza degli LLM, che affronta simultaneamente i problemi di oblio e robustezza attraverso un framework unificato di ottimizzazione vincolata, fornendo una soluzione computazionalmente efficiente. Nonostante alcune insufficienze nell'analisi teorica e nella valutazione, il suo valore pratico e l'innovatività lo rendono un progresso importante in questo campo.