2025-11-25T22:19:18.206879

Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

Rezkellah, Dakhmouche
With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable or embed the LLM with robustness to tailored attacks by shifting part of the weights to a \emph{safer} region. Beyond unifying two key properties, this approach contrasts with previous work in that it doesn't require an oracle classifier that is typically not available or represents a computational overhead. Surprisingly, we find that the simplest point-wise constraint-based intervention we propose leads to better performance than max-min interventions, while having a lower computational cost. Comparison against state-of-the-art defense methods demonstrates superior performance of the proposed approach.
academic

El Desaprendizaje Automático se Encuentra con la Robustez Adversarial mediante Intervenciones Restringidas en LLMs

Información Básica

  • ID del Artículo: 2510.03567
  • Título: Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs
  • Autores: Fatmazohra Rezkellah (Université Paris-Dauphine), Ramzi Dakhmouche (EPFL & Empa)
  • Clasificación: cs.LG cs.CL cs.CR cs.CY math.OC
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Constrained Optimization for Machine Learning (COML)
  • Enlace del Artículo: https://arxiv.org/abs/2510.03567

Resumen

Con la adopción generalizada de modelos de lenguaje grandes (LLMs), es necesaria una mayor personalización para garantizar la protección de la privacidad y la generación segura. Este artículo aborda este objetivo desde dos aspectos clave: el olvido de información sensible y la robustez frente a ataques de jailbreak. Los investigadores proponen varias formulaciones de optimización restringida que unifican ambos aspectos mediante la búsqueda de la intervención mínima posible en los pesos del LLM, haciendo que un conjunto de vocabulario dado sea inaccesible o mejorando la robustez del LLM frente a ataques personalizados transfiriendo parcialmente los pesos a regiones más seguras. El método no requiere un clasificador oráculo, que generalmente no está disponible o representa un costo computacional significativo. Sorprendentemente, los autores descubren que el método de intervención de punto restringido más simple propuesto tiene mejor rendimiento que la intervención máx-mín, con menor costo computacional.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda dos problemas centrales:

  1. Problema del Desaprendizaje Automático: Cómo eliminar cierta información (conjunto de vocabulario específico) del espacio de generación de un modelo de lenguaje con costo computacional mínimo
  2. Problema de Robustez Adversarial: Cómo hacer que un modelo de lenguaje sea más robusto frente a ataques adversariales de jailbreak que conducen a contenido peligroso o tóxico

Importancia

Con el despliegue de LLMs en aplicaciones sensibles a la seguridad (como moderación de contenido en línea, procesamiento de datos confidenciales), garantizar la seguridad de la salida del modelo generativo se convierte en un requisito crítico. Los métodos existentes presentan compensaciones entre eficiencia computacional y efectividad defensiva.

Limitaciones de Métodos Existentes

  1. Ajuste fino y mejora de modelos: Alto costo computacional
  2. Defensa basada en indicaciones: Frágil y susceptible a manipulaciones adversariales
  3. Métodos de sondas ligeras: Limitados por datos de entrenamiento limitados, ineficaces contra ataques adversariales
  4. Métodos de olvido: Principalmente mediante reentreno parcial del marco profesor-estudiante o ajuste fino iterativo, con alto costo computacional

Motivación de la Investigación

Los autores, inspirados por métodos de robustez principistas en regresión, proponen un marco unificado que aborda simultáneamente la robustez adversarial y el problema del olvido, aprovechando el hecho de que la información se almacena implícitamente en las rutas del espacio latente.

Contribuciones Principales

  1. Marco Unificado: Propone y resuelve varios problemas de optimización restringida que dotan a los LLMs de robustez simultánea frente a ataques adversariales y capacidad de olvido de contenido innecesario
  2. Sin Clasificador Externo: Supera la necesidad de sondas artificiales mediante la introducción de relajación continua en el espacio de indicaciones y la ejecución de intervenciones que restringen directamente las incrustaciones de conceptos
  3. Mejora de Rendimiento: Demuestra mejora de rendimiento en comparación con algoritmos defensivos de última generación y establece un nuevo estado del arte para el olvido económico en LLMs
  4. Eficiencia Computacional: El método de punto restringido más simple supera a la intervención máx-mín compleja tanto en rendimiento como en costo computacional

Explicación Detallada del Método

Definición de Tareas

Dado un modelo de lenguaje entrenado ℓ : Σ → Σ, considere dos tareas fundamentales relacionadas con la seguridad:

  1. Cómo eliminar cierta información (conjunto de vocabulario) del espacio de generación de ℓ con costo computacional mínimo
  2. Cómo hacer que ℓ sea más robusto frente a ataques adversariales de jailbreak que conducen a contenido peligroso o tóxico

Tres Métodos de Intervención Restringida

1. Hacia Región Segura (TSR)

Busca la perturbación de peso mínima para maximizar la probabilidad de respuesta segura frente a indicaciones de jailbreak:

min_{‖δ‖≤ε} L_safety(ℓ_{θ+δ}(x), y_safe)

donde la función de pérdida de seguridad se define como:

L_safety(f_{θ+δ}(x), y_safe) = -log(∑_{k∈K_safety} p_k(x; θ + δ))

Ventajas: No requiere ejemplos de generación peligrosa, resoluble mediante descenso de gradiente proyectado Desventajas: La restricción sobre generación segura es suave, rendimiento más débil

2. Lejos de Región de Riesgo (ARR)

Adopta un problema máx-mín:

max_{‖δ‖≤ε} min_{x∈X} L_harmful(ℓ_{θ+δ}(x), y_harmful)

donde la función de pérdida dañina se define como:

L_harmful(ℓ_{θ+δ}(x), y_harmful) = -log(∑_{k∈K_harmful} p_k(x; θ + δ))

Características: Considera escenarios de entrada en el peor caso, utiliza relajación probabilística para manejar estructuras discretas Desventajas: Requiere conocimiento del conjunto de conceptos dañinos, puede ser excesivamente conservador

3. Región de Punto Restringido (PCR)

Estrategia de punto restringido simple basada en intervención mínima, haciendo que la activación MLP del LLM para indicaciones de jailbreak no sea igual a la incrustación de salida peligrosa:

min_{θ^{(l)}∈R^{d_l}} ‖δ_l‖_2^2
subject to ‖o^{(l)}(x; θ + δ_l) - c_i‖_2 ≥ ε, ∀i ≤ n

Ventajas: Solución semicerrada basada en condiciones KKT, alta eficiencia computacional, mejor rendimiento Desventajas: Requiere conjunto de conceptos deshabilitados predefinido C

Solución de Forma Cerrada

Para el caso de restricción única, la solución de forma cerrada es:

δ^{(l)*}_{single} = [ε - ‖r_i‖_2]_+ / ‖h_{intermediate}‖_2^2 * r_i h^T_{intermediate} / ‖r_i‖_2

El caso de múltiples restricciones se maneja mediante un algoritmo iterativo que aborda la restricción más violada.

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos de Obediencia Personalizado: Contiene 100 palabras clave deshabilitadas (como "abuse", "attack", "bomb" y otras palabras clave relacionadas con violencia y crimen)
  2. HarmBench: Conjunto de prueba de referencia estándar de defensa de LLM

Métricas de Evaluación

  1. Tasa de Éxito de Ataque (ASR): Mide el grado de éxito de ataques adversariales (cuanto más bajo, mejor)
  2. Nivel de Rechazo: Proporción de respuestas completamente rechazadas por el modelo (cuanto más alto, mejor)
  3. Perplejidad: Mide el nivel de olvido comparando la perplejidad de secuencias dadas antes y después de la intervención

Métodos de Comparación

  • SmoothLLM: Algoritmo defensivo adversarial de última generación
  • Self-reminder: Método de defensa de auto-recordatorio
  • Línea Base sin Protección: Modelo original

Modelos de Prueba

  • Llama-3.1 8B Instruct
  • Mistral 7B v0.2
  • Gemma 2B-IT

Resultados Experimentales

Resultados Principales

Resultados de Robustez Adversarial

Tasa de éxito de ataque en el conjunto de datos HarmBench:

ModeloSin ProtecciónPunto Restringido (Este Trabajo)SmoothLLMSelf-Reminder
Llama-3.1 8B11.00.07.2450.8
Mistral 7B30.05.8818.928.5
Gemma 2B-IT22.02.5088.22519.58

Análisis de Patrones de Rechazo:

ModeloEste Trabajo (%)SmoothLLM (%)Self-Reminder (%)
Llama-3.1 8B100.087.524.3
Gemma 2B-IT97.41036.9
Mistral 7B26.737.520

Resultados de Desaprendizaje Automático

Análisis de Perplejidad de Palabras Deshabilitadas (mayor perplejidad indica mejor olvido):

ModeloConjunto de DatosLínea BaseIntervención de Punto Restringido
Gemma-2B-ITObediencia8.81612.72
Gemma-2B-ITHarmBench16.75718.157
Mistral-7BObediencia8.62713.74
Llama-3-8BObediencia6.487.735

Eficiencia Computacional

Tiempo promedio por caso de prueba:

ModeloTiempo de Ataque (s)Método PCR (s)SmoothLLM (s)
LLaMA 3 8B38.8920.1636.12
Mistral-7B27.4317.2840.17
Gemma 2B14.37510.4411.62

Hallazgos Importantes

  1. Método de Punto Restringido Óptimo: El método PCR más simple supera a los métodos TSR y ARR más complejos tanto en rendimiento como en eficiencia computacional
  2. Marco Unificado Efectivo: Un único método puede manejar simultáneamente problemas de olvido y robustez
  3. Impacto del Número de Capas: La intervención en más capas MLP produce mejor rendimiento
  4. Ventaja Computacional Clara: Reducción significativa del costo computacional en comparación con métodos existentes

Trabajo Relacionado

Métodos de Generación Segura

  1. Métodos de Ajuste Fino: Alto costo computacional
  2. Ingeniería de Indicaciones: Susceptible a manipulaciones adversariales
  3. Cuantificación de Incertidumbre: Complejidad computacional
  4. Mejora de Modelos: Requisitos de recursos altos

Métodos Ligeros

  1. Sondas en Espacio de Activación: Limitadas por datos de entrenamiento
  2. Detección Adversarial: Análisis de características estadísticas de entradas perturbadas

Desaprendizaje Automático

  1. Marco Profesor-Estudiante: Reentreno parcial, alto costo computacional
  2. Ajuste Fino Iterativo: Enfrenta desafíos computacionales similares

Conclusiones y Discusión

Conclusiones Principales

  1. Propone un marco de optimización restringida que unifica el olvido de LLM y la robustez
  2. El método de punto restringido logra el mejor equilibrio entre simplicidad y efectividad
  3. No requiere clasificador externo, reduciendo costo computacional y complejidad de implementación
  4. Supera métodos de última generación en múltiples referencias

Limitaciones

  1. Dependencia del Conjunto de Conceptos: Los métodos PCR y ARR requieren un conjunto de conceptos deshabilitados predefinido
  2. Métricas de Evaluación: La evaluación del olvido se basa principalmente en perplejidad, lo que puede no ser suficientemente completo
  3. Capacidad de Generalización: La capacidad de generalización en diferentes tipos de ataques y modelos requiere verificación adicional
  4. Análisis Teórico: Falta análisis teórico profundo de garantías del método

Direcciones Futuras

  1. Desarrollar métodos adaptativos que no requieran conjuntos de conceptos predefinidos
  2. Explorar métricas de evaluación de olvido más completas
  3. Investigar escalabilidad del método en modelos de mayor escala
  4. Proporcionar garantías teóricas de convergencia y seguridad

Evaluación Profunda

Fortalezas

  1. Importancia del Problema: Aborda dos problemas clave en el despliegue seguro de LLM
  2. Innovación del Método: Primera unificación de olvido y robustez en marco de optimización restringida
  3. Valor Práctico: Proporciona solución computacionalmente eficiente
  4. Evaluación Completa: Evaluación exhaustiva en múltiples modelos y conjuntos de datos
  5. Fundamento Teórico: Proporciona solución de forma cerrada basada en condiciones KKT

Insuficiencias

  1. Análisis Teórico Limitado: Falta análisis teórico de convergencia y optimalidad del método
  2. Limitaciones de Evaluación: Evaluación del olvido depende principalmente de métrica única de perplejidad
  3. Diversidad de Ataques: Se enfoca principalmente en tipos específicos de ataques de jailbreak, efecto en otros tipos de ataques desconocido
  4. Impacto a Largo Plazo: Impacto de intervención de pesos en rendimiento a largo plazo del modelo requiere investigación adicional

Impacto

  1. Contribución Académica: Proporciona nueva perspectiva unificada para investigación de seguridad de LLM
  2. Valor Práctico: Proporciona solución de seguridad económica para organizaciones con recursos limitados
  3. Reproducibilidad: Proporciona descripción de algoritmo detallada e implementación
  4. Extensibilidad: Marco extensible a otras tareas relacionadas con seguridad

Escenarios Aplicables

  1. Sector Educativo: Prevención de generación de contenido inapropiado
  2. Cuidado de la Salud: Protección de información médica sensible
  3. Plataformas en Línea: Auditoría de seguridad de contenido
  4. Aplicaciones Empresariales: Protección de información confidencial

Referencias

El artículo cita múltiples trabajos importantes en campos relacionados, incluyendo entrenamiento adversarial, desaprendizaje automático, seguridad de LLM y otras direcciones de investigación reciente, proporcionando base teórica sólida y referencias de comparación para esta investigación.


Evaluación General: Este es un artículo con contribuciones importantes en el campo de seguridad de LLM, que aborda simultáneamente problemas de olvido y robustez mediante un marco unificado de optimización restringida, proporcionando solución computacionalmente eficiente. A pesar de algunas insuficiencias en análisis teórico y evaluación, su valor práctico e innovación lo convierten en progreso importante en este campo.