2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.

academic

El Desaprendizaje Automático se Encuentra con la Robustez Adversarial mediante Intervenciones Restringidas en LLMs

Información Básica

ID del Artículo: 2510.03567
Título: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autores: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Clasificación: cs.LG cs.CL cs.CR cs.CY math.OC
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Enlace del Artículo: https://arxiv.org/abs/2510.03567

Resumen

Con la adopción generalizada de modelos de lenguaje grandes (LLMs), es necesaria una mayor personalización para garantizar la protección de la privacidad y la generación segura. Este artículo aborda este objetivo desde dos aspectos clave: el olvido de información sensible y la robustez frente a ataques de jailbreak. Los investigadores proponen varias formulaciones de optimización restringida que unifican ambos aspectos mediante la búsqueda de la intervención mínima posible en los pesos del LLM, haciendo que un conjunto de vocabulario dado sea inaccesible o mejorando la robustez del LLM frente a ataques personalizados transfiriendo parcialmente los pesos a regiones más seguras. El método no requiere un clasificador oráculo, que generalmente no está disponible o representa un costo computacional significativo. Sorprendentemente, los autores descubren que el método de intervención de punto restringido más simple propuesto tiene mejor rendimiento que la intervención máx-mín, con menor costo computacional.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda dos problemas centrales:

Problema del Desaprendizaje Automático: Cómo eliminar cierta información (conjunto de vocabulario específico) del espacio de generación de un modelo de lenguaje con costo computacional mínimo
Problema de Robustez Adversarial: Cómo hacer que un modelo de lenguaje sea más robusto frente a ataques adversariales de jailbreak que conducen a contenido peligroso o tóxico

Importancia

Con el despliegue de LLMs en aplicaciones sensibles a la seguridad (como moderación de contenido en línea, procesamiento de datos confidenciales), garantizar la seguridad de la salida del modelo generativo se convierte en un requisito crítico. Los métodos existentes presentan compensaciones entre eficiencia computacional y efectividad defensiva.

Limitaciones de Métodos Existentes

Ajuste fino y mejora de modelos: Alto costo computacional
Defensa basada en indicaciones: Frágil y susceptible a manipulaciones adversariales
Métodos de sondas ligeras: Limitados por datos de entrenamiento limitados, ineficaces contra ataques adversariales
Métodos de olvido: Principalmente mediante reentreno parcial del marco profesor-estudiante o ajuste fino iterativo, con alto costo computacional

Motivación de la Investigación

Los autores, inspirados por métodos de robustez principistas en regresión, proponen un marco unificado que aborda simultáneamente la robustez adversarial y el problema del olvido, aprovechando el hecho de que la información se almacena implícitamente en las rutas del espacio latente.

Contribuciones Principales

Marco Unificado: Propone y resuelve varios problemas de optimización restringida que dotan a los LLMs de robustez simultánea frente a ataques adversariales y capacidad de olvido de contenido innecesario
Sin Clasificador Externo: Supera la necesidad de sondas artificiales mediante la introducción de relajación continua en el espacio de indicaciones y la ejecución de intervenciones que restringen directamente las incrustaciones de conceptos
Mejora de Rendimiento: Demuestra mejora de rendimiento en comparación con algoritmos defensivos de última generación y establece un nuevo estado del arte para el olvido económico en LLMs
Eficiencia Computacional: El método de punto restringido más simple supera a la intervención máx-mín compleja tanto en rendimiento como en costo computacional

Explicación Detallada del Método

Definición de Tareas

Dado un modelo de lenguaje entrenado ℓ : Σ → Σ, considere dos tareas fundamentales relacionadas con la seguridad:

Cómo eliminar cierta información (conjunto de vocabulario) del espacio de generación de ℓ con costo computacional mínimo
Cómo hacer que ℓ sea más robusto frente a ataques adversariales de jailbreak que conducen a contenido peligroso o tóxico

Tres Métodos de Intervención Restringida

1. Hacia Región Segura (TSR)

Busca la perturbación de peso mínima para maximizar la probabilidad de respuesta segura frente a indicaciones de jailbreak:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

donde la función de pérdida de seguridad se define como:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Ventajas: No requiere ejemplos de generación peligrosa, resoluble mediante descenso de gradiente proyectado Desventajas: La restricción sobre generación segura es suave, rendimiento más débil

2. Lejos de Región de Riesgo (ARR)

Adopta un problema máx-mín:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

donde la función de pérdida dañina se define como:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Características: Considera escenarios de entrada en el peor caso, utiliza relajación probabilística para manejar estructuras discretas Desventajas: Requiere conocimiento del conjunto de conceptos dañinos, puede ser excesivamente conservador

3. Región de Punto Restringido (PCR)

Estrategia de punto restringido simple basada en intervención mínima, haciendo que la activación MLP del LLM para indicaciones de jailbreak no sea igual a la incrustación de salida peligrosa:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Ventajas: Solución semicerrada basada en condiciones KKT, alta eficiencia computacional, mejor rendimiento Desventajas: Requiere conjunto de conceptos deshabilitados predefinido C

Solución de Forma Cerrada

Para el caso de restricción única, la solución de forma cerrada es:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

El caso de múltiples restricciones se maneja mediante un algoritmo iterativo que aborda la restricción más violada.

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Obediencia Personalizado: Contiene 100 palabras clave deshabilitadas (como "abuse", "attack", "bomb" y otras palabras clave relacionadas con violencia y crimen)
HarmBench: Conjunto de prueba de referencia estándar de defensa de LLM

Métricas de Evaluación

Tasa de Éxito de Ataque (ASR): Mide el grado de éxito de ataques adversariales (cuanto más bajo, mejor)
Nivel de Rechazo: Proporción de respuestas completamente rechazadas por el modelo (cuanto más alto, mejor)
Perplejidad: Mide el nivel de olvido comparando la perplejidad de secuencias dadas antes y después de la intervención

Métodos de Comparación

SmoothLLM: Algoritmo defensivo adversarial de última generación
Self-reminder: Método de defensa de auto-recordatorio
Línea Base sin Protección: Modelo original

Modelos de Prueba

Llama-3.1 8B Instruct
Mistral 7B v0.2
Gemma 2B-IT

Resultados Experimentales

Resultados Principales

Resultados de Robustez Adversarial

Tasa de éxito de ataque en el conjunto de datos HarmBench:

Modelo	Sin Protección	Punto Restringido (Este Trabajo)	SmoothLLM	Self-Reminder
Llama-3.1 8B	11.0	0.0	7.245	0.8
Mistral 7B	30.0	5.88	18.9	28.5
Gemma 2B-IT	22.0	2.508	8.225	19.58

Análisis de Patrones de Rechazo:

Modelo	Este Trabajo (%)	SmoothLLM (%)	Self-Reminder (%)
Llama-3.1 8B	100.0	87.5	24.3
Gemma 2B-IT	97.4	10	36.9
Mistral 7B	26.7	37.5	20

Resultados de Desaprendizaje Automático

Análisis de Perplejidad de Palabras Deshabilitadas (mayor perplejidad indica mejor olvido):

Modelo	Conjunto de Datos	Línea Base	Intervención de Punto Restringido
Gemma-2B-IT	Obediencia	8.816	12.72
Gemma-2B-IT	HarmBench	16.757	18.157
Mistral-7B	Obediencia	8.627	13.74
Llama-3-8B	Obediencia	6.48	7.735

Eficiencia Computacional

Tiempo promedio por caso de prueba:

Modelo	Tiempo de Ataque (s)	Método PCR (s)	SmoothLLM (s)
LLaMA 3 8B	38.89	20.16	36.12
Mistral-7B	27.43	17.28	40.17
Gemma 2B	14.375	10.44	11.62

Hallazgos Importantes

Método de Punto Restringido Óptimo: El método PCR más simple supera a los métodos TSR y ARR más complejos tanto en rendimiento como en eficiencia computacional
Marco Unificado Efectivo: Un único método puede manejar simultáneamente problemas de olvido y robustez
Impacto del Número de Capas: La intervención en más capas MLP produce mejor rendimiento
Ventaja Computacional Clara: Reducción significativa del costo computacional en comparación con métodos existentes

Trabajo Relacionado

Métodos de Generación Segura

Métodos de Ajuste Fino: Alto costo computacional
Ingeniería de Indicaciones: Susceptible a manipulaciones adversariales
Cuantificación de Incertidumbre: Complejidad computacional
Mejora de Modelos: Requisitos de recursos altos

Métodos Ligeros

Sondas en Espacio de Activación: Limitadas por datos de entrenamiento
Detección Adversarial: Análisis de características estadísticas de entradas perturbadas

Desaprendizaje Automático

Marco Profesor-Estudiante: Reentreno parcial, alto costo computacional
Ajuste Fino Iterativo: Enfrenta desafíos computacionales similares

Conclusiones y Discusión

Conclusiones Principales

Propone un marco de optimización restringida que unifica el olvido de LLM y la robustez
El método de punto restringido logra el mejor equilibrio entre simplicidad y efectividad
No requiere clasificador externo, reduciendo costo computacional y complejidad de implementación
Supera métodos de última generación en múltiples referencias

Limitaciones

Dependencia del Conjunto de Conceptos: Los métodos PCR y ARR requieren un conjunto de conceptos deshabilitados predefinido
Métricas de Evaluación: La evaluación del olvido se basa principalmente en perplejidad, lo que puede no ser suficientemente completo
Capacidad de Generalización: La capacidad de generalización en diferentes tipos de ataques y modelos requiere verificación adicional
Análisis Teórico: Falta análisis teórico profundo de garantías del método

Direcciones Futuras

Desarrollar métodos adaptativos que no requieran conjuntos de conceptos predefinidos
Explorar métricas de evaluación de olvido más completas
Investigar escalabilidad del método en modelos de mayor escala
Proporcionar garantías teóricas de convergencia y seguridad

Evaluación Profunda

Fortalezas

Importancia del Problema: Aborda dos problemas clave en el despliegue seguro de LLM
Innovación del Método: Primera unificación de olvido y robustez en marco de optimización restringida
Valor Práctico: Proporciona solución computacionalmente eficiente
Evaluación Completa: Evaluación exhaustiva en múltiples modelos y conjuntos de datos
Fundamento Teórico: Proporciona solución de forma cerrada basada en condiciones KKT

Insuficiencias

Análisis Teórico Limitado: Falta análisis teórico de convergencia y optimalidad del método
Limitaciones de Evaluación: Evaluación del olvido depende principalmente de métrica única de perplejidad
Diversidad de Ataques: Se enfoca principalmente en tipos específicos de ataques de jailbreak, efecto en otros tipos de ataques desconocido
Impacto a Largo Plazo: Impacto de intervención de pesos en rendimiento a largo plazo del modelo requiere investigación adicional

Impacto

Contribución Académica: Proporciona nueva perspectiva unificada para investigación de seguridad de LLM
Valor Práctico: Proporciona solución de seguridad económica para organizaciones con recursos limitados
Reproducibilidad: Proporciona descripción de algoritmo detallada e implementación
Extensibilidad: Marco extensible a otras tareas relacionadas con seguridad

Escenarios Aplicables

Sector Educativo: Prevención de generación de contenido inapropiado
Cuidado de la Salud: Protección de información médica sensible
Plataformas en Línea: Auditoría de seguridad de contenido
Aplicaciones Empresariales: Protección de información confidencial

Referencias

El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo entrenamiento adversarial, desaprendizaje automático, seguridad de LLM y otras direcciones de investigación reciente, proporcionando base teórica sólida y referencias de comparación para esta investigación.

Evaluación General: Este es un artículo con contribuciones importantes en el campo de seguridad de LLM, que aborda simultáneamente problemas de olvido y robustez mediante un marco unificado de optimización restringida, proporcionando solución computacionalmente eficiente. A pesar de algunas insuficiencias en análisis teórico y evaluación, su valor práctico e innovación lo convierten en progreso importante en este campo.