Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic
Desaprendizaje de Puertas Traseras mediante Descomposición Lineal de Tareas
Los modelos fundacionales han revolucionado la visión por computadora al permitir una generalización amplia en diversas tareas. Sin embargo, siguen siendo altamente susceptibles a perturbaciones adversariales y ataques de puerta trasera dirigidos. La mitigación de tales vulnerabilidades sigue siendo un desafío abierto, especialmente dado que la naturaleza a gran escala de los modelos prohíbe el reentrenamiento para garantizar la seguridad. Los enfoques existentes de eliminación de puertas traseras se basan en ajuste fino costoso para anular el comportamiento dañino, y a menudo pueden degradar el rendimiento en otras tareas no relacionadas. Esto plantea la pregunta de si las puertas traseras pueden eliminarse sin comprometer las capacidades generales de los modelos. En este trabajo, abordamos esta pregunta e investigamos cómo se codifican las puertas traseras en el espacio de pesos del modelo, descubriendo que están desacopladas de otras tareas benignas. Específicamente, esta separación permite el aislamiento y la eliminación de la influencia de la puerta trasera en el modelo con un impacto mínimo en el rendimiento limpio. Basándonos en esta perspectiva, introducimos un método de desaprendizaje simple que aprovecha tal desacoplamiento. A través de experimentos extensivos con modelos basados en CLIP y disparadores adversariales comunes, demostramos que, dado el conocimiento del ataque, nuestro método logra un desaprendizaje aproximadamente perfecto, mientras mantiene, en promedio, el 96% de precisión limpia. Además, demostramos que incluso cuando el ataque y su presencia son desconocidos, nuestro método desaprende exitosamente puertas traseras mediante estimación adecuada utilizando disparadores de ingeniería inversa. En general, nuestro método produce consistentemente mejores compensaciones entre desaprendizaje y precisión limpia en comparación con las defensas del estado del arte actual.
Esta investigación aborda el problema de la protección contra ataques de puerta trasera (Backdoor Attacks) en modelos fundacionales de gran escala. Los ataques de puerta trasera inyectan una pequeña cantidad de muestras con disparadores específicos (triggers) en los datos de entrenamiento, haciendo que el modelo produzca comportamiento malintencionado predeterminado cuando encuentra entrada que contiene ese disparador, mientras funciona normalmente en entrada normal.
Amenaza de Seguridad: Los ataques de puerta trasera representan una amenaza seria para aplicaciones críticas de seguridad como conducción autónoma y diagnóstico médico
Desafío de Escala: El costo de entrenamiento de modelos fundacionales de gran escala es extremadamente alto, haciendo que el reentrenamiento completo para eliminar puertas traseras sea impracticable
Requisito de Generalidad: Los métodos de protección existentes a menudo dañan el rendimiento del modelo en otras tareas, presentando problemas de olvido catastrófico
Métodos de Reentrenamiento: Costo computacional demasiado alto, impracticable para modelos a gran escala
Métodos de Ajuste Fino: Propensos a causar olvido catastrófico, reduciendo el rendimiento del modelo en tareas limpias
Desaprendizaje Automático Tradicional: Efectividad limitada en tareas de eliminación de puertas traseras, especialmente con bajo rendimiento en configuraciones a pequeña escala
Los autores se basan en la teoría del desacoplamiento de pesos (weight disentanglement), asumiendo que el comportamiento de puerta trasera en el espacio de pesos del modelo está separado de tareas normales, permitiendo así la eliminación precisa de puertas traseras mediante operaciones lineales sin afectar la funcionalidad normal.
Perspectiva Teórica: Primera aplicación de la teoría del desacoplamiento de pesos al análisis de puertas traseras, demostrando que el conocimiento de puerta trasera y el conocimiento limpio están desacoplados en el espacio de pesos en modelos Transformer tipo CLIP
Método TBAR: Introducción de Trigger removal by Backdoor ARithmetic (TBAR), un método ligero de desaprendizaje de puerta trasera basado en aritmética de vectores de tareas
Rendimiento Excepcional: Logra una tasa de eliminación de puerta trasera del 99% con disparadores conocidos, mientras mantiene una precisión limpia del 96%, con requisitos de datos dos órdenes de magnitud menores que métodos existentes
Escenario de Ataque Desconocido: Combinado con técnicas de ingeniería inversa, logra eliminar exitosamente puertas traseras incluso cuando el ataque es desconocido, manteniendo precisión limpia superior al 90%
Dado un modelo infectado por puerta trasera θb, el objetivo es eliminar el comportamiento de puerta trasera (reducir la tasa de éxito de ataque ASR a cero), mientras se maximiza el rendimiento del modelo en datos limpios (precisión limpia CA).
Los autores proponen la suposición central de que los pesos de modelos fundacionales visuales satisfacen la propiedad de desacoplamiento de pesos para ataques de puerta trasera comunes:
Mediante visualización del error de desacoplamiento de pesos ξ(αc, αt), se confirma que la tarea limpia y la tarea de disparador están efectivamente separadas en el espacio de pesos, validando la corrección de la suposición central.
Los experimentos muestran que aumentar el tamaño del conjunto de desaprendizaje (de 300 a 30k) tiene impacto limitado en la mejora de rendimiento, indicando que la identificación precisa de lo que necesita desaprenderse es más importante que el tamaño de datos.
Uso de diferentes proporciones de datos limpios y con disparador mezclados, los resultados demuestran que datos puros con disparador logran el mejor equilibrio CA-ASR.
Los ataques de puerta trasera son un tipo de ataque de envenenamiento de datos, introduciendo vulnerabilidades ocultas en modelos mediante modificación de pequeña cantidad de datos de entrenamiento. Modelos multimodales como CLIP se han convertido en objetivos principales de ataque debido a sus aplicaciones generalizadas.
El desaprendizaje automático tiene como objetivo eliminar selectivamente comportamientos de aprendizaje específicos, dividiéndose en desaprendizaje exacto y aproximado. Los métodos existentes tienen efectividad limitada en tareas de eliminación de puertas traseras.
La aritmética de tareas codifica tareas de aprendizaje como vectores en el espacio de pesos, permitiendo adición, eliminación y combinación de tareas mediante operaciones lineales. La propiedad de desacoplamiento de pesos es la base teórica de la efectividad de estas operaciones.
Dependencia de Suposiciones: El método se basa en la suposición de desacoplamiento de pesos, que puede no aplicarse a todas las arquitecturas de modelo
Tipos de Ataque: Principalmente verificado en ataques estándar, la robustez contra ataques más complejos requiere investigación adicional
Dependencia de DECREE: El escenario de ataque desconocido depende de la capacidad de detección de DECREE, con efectividad limitada en algunos ataques (como BadCLIP)
Innovación Teórica: Primera aplicación sistemática de teoría de desacoplamiento de pesos a protección contra puertas traseras, proporcionando nueva perspectiva teórica
Simplicidad del Método: El método TBAR es simple y efectivo, fácil de implementar y desplegar
Experimentos Comprehensivos: Cubre múltiples tipos de ataque, conjuntos de datos y arquitecturas de modelo, con diseño experimental suficiente
Valor Práctico: Reduce significativamente los requisitos de datos, con importante valor en despliegue práctico
Valor Académico: Proporciona nuevas perspectivas para investigación de protección contra puertas traseras, potencialmente inspirando más métodos de protección basados en espacio de pesos
Valor Práctico: Tiene importantes perspectivas de aplicación en despliegue de modelos a gran escala
Reproducibilidad: Proporciona configuración experimental detallada e implementación, facilitando reproducción