Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic
El Desaprendizaje Automático se Encuentra con la Robustez Adversarial mediante Intervenciones Restringidas en LLMs
Título: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
Autores: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
Clasificación: cs.LG cs.CL cs.CR cs.CY math.OC
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
Con la adopción generalizada de modelos de lenguaje grandes (LLMs), es necesaria una mayor personalización para garantizar la protección de la privacidad y la generación segura. Este artículo aborda este objetivo desde dos aspectos clave: el olvido de información sensible y la robustez frente a ataques de jailbreak. Los investigadores proponen varias formulaciones de optimización restringida que unifican ambos aspectos mediante la búsqueda de la intervención mínima posible en los pesos del LLM, haciendo que un conjunto de vocabulario dado sea inaccesible o mejorando la robustez del LLM frente a ataques personalizados transfiriendo parcialmente los pesos a regiones más seguras. El método no requiere un clasificador oráculo, que generalmente no está disponible o representa un costo computacional significativo. Sorprendentemente, los autores descubren que el método de intervención de punto restringido más simple propuesto tiene mejor rendimiento que la intervención máx-mín, con menor costo computacional.
Esta investigación aborda dos problemas centrales:
Problema del Desaprendizaje Automático: Cómo eliminar cierta información (conjunto de vocabulario específico) del espacio de generación de un modelo de lenguaje con costo computacional mínimo
Problema de Robustez Adversarial: Cómo hacer que un modelo de lenguaje sea más robusto frente a ataques adversariales de jailbreak que conducen a contenido peligroso o tóxico
Con el despliegue de LLMs en aplicaciones sensibles a la seguridad (como moderación de contenido en línea, procesamiento de datos confidenciales), garantizar la seguridad de la salida del modelo generativo se convierte en un requisito crítico. Los métodos existentes presentan compensaciones entre eficiencia computacional y efectividad defensiva.
Los autores, inspirados por métodos de robustez principistas en regresión, proponen un marco unificado que aborda simultáneamente la robustez adversarial y el problema del olvido, aprovechando el hecho de que la información se almacena implícitamente en las rutas del espacio latente.
Marco Unificado: Propone y resuelve varios problemas de optimización restringida que dotan a los LLMs de robustez simultánea frente a ataques adversariales y capacidad de olvido de contenido innecesario
Sin Clasificador Externo: Supera la necesidad de sondas artificiales mediante la introducción de relajación continua en el espacio de indicaciones y la ejecución de intervenciones que restringen directamente las incrustaciones de conceptos
Mejora de Rendimiento: Demuestra mejora de rendimiento en comparación con algoritmos defensivos de última generación y establece un nuevo estado del arte para el olvido económico en LLMs
Eficiencia Computacional: El método de punto restringido más simple supera a la intervención máx-mín compleja tanto en rendimiento como en costo computacional
Ventajas: No requiere ejemplos de generación peligrosa, resoluble mediante descenso de gradiente proyectado
Desventajas: La restricción sobre generación segura es suave, rendimiento más débil
Características: Considera escenarios de entrada en el peor caso, utiliza relajación probabilística para manejar estructuras discretas
Desventajas: Requiere conocimiento del conjunto de conceptos dañinos, puede ser excesivamente conservador
Estrategia de punto restringido simple basada en intervención mínima, haciendo que la activación MLP del LLM para indicaciones de jailbreak no sea igual a la incrustación de salida peligrosa:
min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n
Ventajas: Solución semicerrada basada en condiciones KKT, alta eficiencia computacional, mejor rendimiento
Desventajas: Requiere conjunto de conceptos deshabilitados predefinido C
Conjunto de Datos de Obediencia Personalizado: Contiene 100 palabras clave deshabilitadas (como "abuse", "attack", "bomb" y otras palabras clave relacionadas con violencia y crimen)
HarmBench: Conjunto de prueba de referencia estándar de defensa de LLM
Método de Punto Restringido Óptimo: El método PCR más simple supera a los métodos TSR y ARR más complejos tanto en rendimiento como en eficiencia computacional
Marco Unificado Efectivo: Un único método puede manejar simultáneamente problemas de olvido y robustez
Impacto del Número de Capas: La intervención en más capas MLP produce mejor rendimiento
Ventaja Computacional Clara: Reducción significativa del costo computacional en comparación con métodos existentes
El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo entrenamiento adversarial, desaprendizaje automático, seguridad de LLM y otras direcciones de investigación reciente, proporcionando base teórica sólida y referencias de comparación para esta investigación.
Evaluación General: Este es un artículo con contribuciones importantes en el campo de seguridad de LLM, que aborda simultáneamente problemas de olvido y robustez mediante un marco unificado de optimización restringida, proporcionando solución computacionalmente eficiente. A pesar de algunas insuficiencias en análisis teórico y evaluación, su valor práctico e innovación lo convierten en progreso importante en este campo.