2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

Desaprendizaje de Puertas Traseras mediante Descomposición Lineal de Tareas

Información Básica

  • ID del Artículo: 2510.14845
  • Título: Backdoor Unlearning by Linear Task Decomposition
  • Autores: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • Clasificación: cs.LG cs.CV
  • Fecha de Publicación/Conferencia: Preimpresión arXiv (Enviado el 16 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14845

Resumen

Los modelos fundacionales han revolucionado la visión por computadora al permitir una generalización amplia en diversas tareas. Sin embargo, siguen siendo altamente susceptibles a perturbaciones adversariales y ataques de puerta trasera dirigidos. La mitigación de tales vulnerabilidades sigue siendo un desafío abierto, especialmente dado que la naturaleza a gran escala de los modelos prohíbe el reentrenamiento para garantizar la seguridad. Los enfoques existentes de eliminación de puertas traseras se basan en ajuste fino costoso para anular el comportamiento dañino, y a menudo pueden degradar el rendimiento en otras tareas no relacionadas. Esto plantea la pregunta de si las puertas traseras pueden eliminarse sin comprometer las capacidades generales de los modelos. En este trabajo, abordamos esta pregunta e investigamos cómo se codifican las puertas traseras en el espacio de pesos del modelo, descubriendo que están desacopladas de otras tareas benignas. Específicamente, esta separación permite el aislamiento y la eliminación de la influencia de la puerta trasera en el modelo con un impacto mínimo en el rendimiento limpio. Basándonos en esta perspectiva, introducimos un método de desaprendizaje simple que aprovecha tal desacoplamiento. A través de experimentos extensivos con modelos basados en CLIP y disparadores adversariales comunes, demostramos que, dado el conocimiento del ataque, nuestro método logra un desaprendizaje aproximadamente perfecto, mientras mantiene, en promedio, el 96% de precisión limpia. Además, demostramos que incluso cuando el ataque y su presencia son desconocidos, nuestro método desaprende exitosamente puertas traseras mediante estimación adecuada utilizando disparadores de ingeniería inversa. En general, nuestro método produce consistentemente mejores compensaciones entre desaprendizaje y precisión limpia en comparación con las defensas del estado del arte actual.

Antecedentes de Investigación y Motivación

Definición del Problema

Esta investigación aborda el problema de la protección contra ataques de puerta trasera (Backdoor Attacks) en modelos fundacionales de gran escala. Los ataques de puerta trasera inyectan una pequeña cantidad de muestras con disparadores específicos (triggers) en los datos de entrenamiento, haciendo que el modelo produzca comportamiento malintencionado predeterminado cuando encuentra entrada que contiene ese disparador, mientras funciona normalmente en entrada normal.

Importancia del Problema

  1. Amenaza de Seguridad: Los ataques de puerta trasera representan una amenaza seria para aplicaciones críticas de seguridad como conducción autónoma y diagnóstico médico
  2. Desafío de Escala: El costo de entrenamiento de modelos fundacionales de gran escala es extremadamente alto, haciendo que el reentrenamiento completo para eliminar puertas traseras sea impracticable
  3. Requisito de Generalidad: Los métodos de protección existentes a menudo dañan el rendimiento del modelo en otras tareas, presentando problemas de olvido catastrófico

Limitaciones de Métodos Existentes

  1. Métodos de Reentrenamiento: Costo computacional demasiado alto, impracticable para modelos a gran escala
  2. Métodos de Ajuste Fino: Propensos a causar olvido catastrófico, reduciendo el rendimiento del modelo en tareas limpias
  3. Desaprendizaje Automático Tradicional: Efectividad limitada en tareas de eliminación de puertas traseras, especialmente con bajo rendimiento en configuraciones a pequeña escala

Motivación de la Investigación

Los autores se basan en la teoría del desacoplamiento de pesos (weight disentanglement), asumiendo que el comportamiento de puerta trasera en el espacio de pesos del modelo está separado de tareas normales, permitiendo así la eliminación precisa de puertas traseras mediante operaciones lineales sin afectar la funcionalidad normal.

Contribuciones Principales

  1. Perspectiva Teórica: Primera aplicación de la teoría del desacoplamiento de pesos al análisis de puertas traseras, demostrando que el conocimiento de puerta trasera y el conocimiento limpio están desacoplados en el espacio de pesos en modelos Transformer tipo CLIP
  2. Método TBAR: Introducción de Trigger removal by Backdoor ARithmetic (TBAR), un método ligero de desaprendizaje de puerta trasera basado en aritmética de vectores de tareas
  3. Rendimiento Excepcional: Logra una tasa de eliminación de puerta trasera del 99% con disparadores conocidos, mientras mantiene una precisión limpia del 96%, con requisitos de datos dos órdenes de magnitud menores que métodos existentes
  4. Escenario de Ataque Desconocido: Combinado con técnicas de ingeniería inversa, logra eliminar exitosamente puertas traseras incluso cuando el ataque es desconocido, manteniendo precisión limpia superior al 90%

Explicación Detallada del Método

Definición de Tareas

Dado un modelo infectado por puerta trasera θb, el objetivo es eliminar el comportamiento de puerta trasera (reducir la tasa de éxito de ataque ASR a cero), mientras se maximiza el rendimiento del modelo en datos limpios (precisión limpia CA).

Suposición Central: Desacoplamiento de Pesos

Los autores proponen la suposición central de que los pesos de modelos fundacionales visuales satisfacen la propiedad de desacoplamiento de pesos para ataques de puerta trasera comunes:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

Donde:

  • τc: Vector de tarea limpia
  • τt: Vector de tarea de disparador
  • Dc: Dominio de imagen limpia
  • Dt: Dominio de imagen con disparador

Flujo del Algoritmo TBAR

1. Estimación del Vector de Disparador

Ajuste fino del modelo infectado usando un conjunto de desaprendizaje a pequeña escala (conteniendo solo muestras con disparador):

τ̂t = θb+t - θb

2. Eliminación de Puerta Trasera

Eliminación de puerta trasera mediante negación de tarea (task negation):

θ̂c = θb - ατ̂t

Donde α es un coeficiente escalar que controla la intensidad del desaprendizaje.

3. Optimización de Coeficientes

Determinación del valor óptimo de α mediante búsqueda en cuadrícula usando un conjunto de validación a pequeña escala.

Extensión para Escenario de Ataque Desconocido

Combinación con el método de ingeniería inversa DECREE:

  1. Uso de DECREE para recuperar disparadores proxy del modelo infectado
  2. Inferencia de etiquetas objetivo mediante sondeo de respuesta del modelo
  3. Construcción de conjunto de muestras proxy con disparador
  4. Aplicación de TBAR para eliminación de puerta trasera

Configuración Experimental

Conjuntos de Datos

  1. Clasificación de Tarea Única: SUN397, CIFAR100, ImageNet-1K
  2. Imagen-Texto a Gran Escala: Subconjunto de 500k de Conceptual Captions 3M (CC3M)

Tipos de Ataques de Puerta Trasera

  • BadNet: Inserción de bloque de ruido aleatorio 16×16 en posición aleatoria
  • Blended: Superposición de perturbación gaussiana en imagen completa (proporción 8:2)
  • WaNet: Aplicación de transformación de distorsión de imagen sutil
  • BadCLIP: Ataque de parche optimizado para CLIP
  • SIG: Perturbación sinusoidal a lo largo del eje horizontal
  • BadMerging: Ataque diseñado para sobrevivir después de fusión de modelos

Métricas de Evaluación

  • Precisión Limpia (CA): Precisión del modelo en datos limpios
  • Tasa de Éxito de Ataque (ASR): Proporción de muestras con disparador predichas como etiqueta objetivo
  • Error de Desacoplamiento de Pesos (ξ): Medida de diferencia de predicción entre combinación de vectores de tarea y aplicación individual

Métodos de Comparación

  • Ajuste Fino con Datos Limpios: CleanCLIP, RoCLIP, ajuste fino estándar de CLIP
  • Desaprendizaje Automático: Ascenso de Gradiente (Gradient Ascent)
  • Ingeniería Inversa: DECREE

Resultados Experimentales

Resultados Principales

Experimentos de Clasificación de Tarea Única

Resultados en CLIP ViT-B/32:

  • SUN397: ASR reducida de 91.40% a 1.25%, CA mantenida en 94.96%
  • CIFAR100: ASR reducida de 99.96% a 0.02%, CA mantenida en 96.44%
  • ImageNet-1K: ASR reducida de 93.56% a 1.96%, CA mantenida en 94.97%

Experimentos de Imagen-Texto a Gran Escala

Resultados usando conjunto de datos CC3M:

  • Eficiencia de Datos: TBAR requiere solo 1.5k muestras, mientras que métodos base requieren 100k muestras
  • Ventaja de Rendimiento: Superior a métodos de protección existentes en todos los tipos de ataque
  • Ataque BadCLIP: ASR reducida de 99.98% a 0.77%, CA mantenida en 56.58%

Verificación de Desacoplamiento de Pesos

Mediante visualización del error de desacoplamiento de pesos ξ(αc, αt), se confirma que la tarea limpia y la tarea de disparador están efectivamente separadas en el espacio de pesos, validando la corrección de la suposición central.

Experimentos de Transferencia

Uso del vector TBAR entrenado en ImageNet-1K sigue siendo efectivo en CIFAR100 y SUN397:

  • CIFAR100: Con disparador compartido y etiqueta objetivo, tasa de eliminación de ASR alcanza 99.98%
  • SUN397: Solo con disparador compartido, tasa de eliminación de ASR alcanza 98.91%

Escenario de Ataque Desconocido

Resultados combinados con DECREE:

  • BadNet: ASR reducida de 84.48% a 0.33%, CA mantenida en 60.29%
  • WaNet: ASR reducida de 93.12% a 0.64%, CA mantenida en 56.85%

Experimentos de Ablación

Impacto del Tamaño del Conjunto de Desaprendizaje

Los experimentos muestran que aumentar el tamaño del conjunto de desaprendizaje (de 300 a 30k) tiene impacto limitado en la mejora de rendimiento, indicando que la identificación precisa de lo que necesita desaprenderse es más importante que el tamaño de datos.

Proporción de Datos Limpios-Disparador

Uso de diferentes proporciones de datos limpios y con disparador mezclados, los resultados demuestran que datos puros con disparador logran el mejor equilibrio CA-ASR.

Trabajo Relacionado

Ataques de Envenenamiento de Datos

Los ataques de puerta trasera son un tipo de ataque de envenenamiento de datos, introduciendo vulnerabilidades ocultas en modelos mediante modificación de pequeña cantidad de datos de entrenamiento. Modelos multimodales como CLIP se han convertido en objetivos principales de ataque debido a sus aplicaciones generalizadas.

Desaprendizaje Automático

El desaprendizaje automático tiene como objetivo eliminar selectivamente comportamientos de aprendizaje específicos, dividiéndose en desaprendizaje exacto y aproximado. Los métodos existentes tienen efectividad limitada en tareas de eliminación de puertas traseras.

Interpolación de Pesos y Aritmética de Tareas

La aritmética de tareas codifica tareas de aprendizaje como vectores en el espacio de pesos, permitiendo adición, eliminación y combinación de tareas mediante operaciones lineales. La propiedad de desacoplamiento de pesos es la base teórica de la efectividad de estas operaciones.

Conclusiones y Discusión

Conclusiones Principales

  1. Verificación Teórica: Confirma el desacoplamiento entre comportamiento de puerta trasera y tareas normales en el espacio de pesos
  2. Efectividad del Método: TBAR demuestra rendimiento excepcional en múltiples ataques y configuraciones
  3. Valor Práctico: Reduce significativamente los requisitos de datos y computación para protección contra puertas traseras

Limitaciones

  1. Dependencia de Suposiciones: El método se basa en la suposición de desacoplamiento de pesos, que puede no aplicarse a todas las arquitecturas de modelo
  2. Tipos de Ataque: Principalmente verificado en ataques estándar, la robustez contra ataques más complejos requiere investigación adicional
  3. Dependencia de DECREE: El escenario de ataque desconocido depende de la capacidad de detección de DECREE, con efectividad limitada en algunos ataques (como BadCLIP)

Direcciones Futuras

  1. Extensión a otras arquitecturas de modelo y paradigmas de preentrenamiento
  2. Investigación de protección contra ataques adaptativos más complejos
  3. Exploración de aplicaciones del desacoplamiento de pesos en otras tareas de seguridad

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera aplicación sistemática de teoría de desacoplamiento de pesos a protección contra puertas traseras, proporcionando nueva perspectiva teórica
  2. Simplicidad del Método: El método TBAR es simple y efectivo, fácil de implementar y desplegar
  3. Experimentos Comprehensivos: Cubre múltiples tipos de ataque, conjuntos de datos y arquitecturas de modelo, con diseño experimental suficiente
  4. Valor Práctico: Reduce significativamente los requisitos de datos, con importante valor en despliegue práctico

Insuficiencias

  1. Limitaciones Teóricas: La universalidad de la suposición de desacoplamiento de pesos requiere más análisis teórico
  2. Adaptabilidad de Ataque: Consideración insuficiente de ataques adaptativos dirigidos a este método de protección
  3. Análisis Computacional: Falta análisis detallado de complejidad computacional y comparación

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas para investigación de protección contra puertas traseras, potencialmente inspirando más métodos de protección basados en espacio de pesos
  2. Valor Práctico: Tiene importantes perspectivas de aplicación en despliegue de modelos a gran escala
  3. Reproducibilidad: Proporciona configuración experimental detallada e implementación, facilitando reproducción

Escenarios Aplicables

  1. Despliegue de Modelos a Gran Escala: Particularmente adecuado para modelos fundacionales de gran escala que no pueden reentrenarse
  2. Entornos con Recursos Limitados: Escenarios donde datos y recursos computacionales son limitados
  3. Modelos Multitarea: Escenarios de aplicación que requieren mantener rendimiento multitarea

Referencias

El artículo cita trabajos importantes en este campo, incluyendo:

  • Ilharco et al. (2022): Trabajo pionero en aritmética de tareas
  • Ortiz-Jimenez et al. (2024): Base teórica del desacoplamiento de pesos
  • Bansal et al. (2023): Método de referencia para protección contra puertas traseras en CLIP
  • Carlini & Terzis (2021): Investigación clásica de ataques de puerta trasera en CLIP