Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic
Disimparare i Backdoor mediante Decomposizione Lineare dei Compiti
I modelli fondamentali hanno rivoluzionato la visione artificiale consentendo una generalizzazione ampia su compiti diversi. Tuttavia, rimangono altamente suscettibili a perturbazioni avversariali e attacchi backdoor mirati. La mitigazione di tali vulnerabilità rimane una sfida aperta, soprattutto considerando che la natura su larga scala dei modelli proibisce il riaddestrimento per garantire la sicurezza. Gli approcci esistenti per la rimozione dei backdoor si basano su fine-tuning costoso per annullare il comportamento dannoso e spesso possono degradare le prestazioni su altri compiti non correlati. Ciò solleva la questione se i backdoor possono essere rimossi senza compromettere le capacità generali dei modelli. In questo lavoro, affrontiamo questa questione e studiamo come i backdoor sono codificati nello spazio dei pesi del modello, scoprendo che sono disaccoppiati da altri compiti benigni. Specificamente, questa separazione consente l'isolamento e l'eliminazione dell'influenza del backdoor sul modello con un impatto minimo sulle prestazioni pulite. Basandoci su questa intuizione, introduciamo un semplice metodo di disimparare che sfrutta tale disaccoppiamento. Attraverso esperimenti estensivi con modelli basati su CLIP e trigger avversariali comuni, dimostriamo che, data la conoscenza dell'attacco, il nostro metodo raggiunge un disimparare approssimativamente perfetto, mantenendo in media il 96% dell'accuratezza pulita. Inoltre, dimostriamo che anche quando l'attacco e la sua presenza sono sconosciuti, il nostro metodo disimpara con successo i backdoor mediante stima appropriata utilizzando trigger invertiti. Nel complesso, il nostro metodo produce costantemente migliori compromessi tra disimparare e accuratezza pulita rispetto alle difese dello stato dell'arte attuale.
Questa ricerca affronta il problema della protezione dai backdoor (attacchi backdoor) nei modelli fondamentali di grandi dimensioni. Gli attacchi backdoor funzionano iniettando un piccolo numero di campioni contaminati con trigger specifici nei dati di addestramento, causando al modello di produrre comportamenti malevoli predeterminati quando incontra input contenenti quel trigger, mentre si comporta normalmente su input ordinari.
Minaccia alla Sicurezza: Gli attacchi backdoor rappresentano una seria minaccia per applicazioni critiche per la sicurezza come la guida autonoma e la diagnosi medica
Sfida di Scala: Il costo di addestramento dei modelli fondamentali di grandi dimensioni è estremamente elevato, rendendo il completo riaddestramento per eliminare i backdoor impraticabile in pratica
Requisito di Generalità: I metodi di protezione esistenti spesso danneggiano le prestazioni del modello su altri compiti, presentando problemi di dimenticanza catastrofica
Gli autori si basano sulla teoria del disaccoppiamento dei pesi (weight disentanglement), ipotizzando che il comportamento backdoor nello spazio dei pesi del modello sia separato dai compiti normali, consentendo quindi la rimozione precisa del backdoor mediante operazioni lineari senza influenzare le funzioni normali.
Intuizione Teorica: Prima applicazione della teoria del disaccoppiamento dei pesi all'analisi dei backdoor, provando che la conoscenza del backdoor e la conoscenza pulita sono disaccoppiate nello spazio dei pesi nei modelli Transformer di tipo CLIP
Metodo TBAR: Introduzione di Trigger removal by Backdoor ARithmetic (TBAR), un metodo leggero di disimparare i backdoor basato sull'aritmetica dei vettori di compito
Prestazioni Eccellenti: Raggiungimento di un tasso di rimozione del backdoor del 99% in caso di trigger noto, mantenendo il 96% dell'accuratezza pulita, con requisiti di dati inferiori di due ordini di grandezza rispetto ai metodi esistenti
Scenario di Attacco Sconosciuto: Combinazione di tecniche di ingegneria inversa per rimuovere con successo i backdoor anche in caso di attacco sconosciuto, mantenendo un'accuratezza pulita superiore al 90%
Dato un modello θb infettato da un attacco backdoor, l'obiettivo è rimuovere il comportamento backdoor (ridurre il tasso di successo dell'attacco ASR a zero) mantenendo il più possibile le prestazioni del modello sui dati puliti (accuratezza pulita CA).
Gli autori propongono l'ipotesi fondamentale che i pesi dei modelli fondamentali visivi soddisfino la proprietà di disaccoppiamento dei pesi per comuni attacchi backdoor, ovvero:
Attraverso la visualizzazione dell'errore di disaccoppiamento dei pesi ξ(αc, αt), è confermato che il compito pulito e il compito trigger sono effettivamente separati nello spazio dei pesi, verificando la correttezza dell'ipotesi fondamentale.
Gli esperimenti mostrano che l'aumento della dimensione dell'insieme di disimparare (da 300 a 30k) ha un impatto limitato sul miglioramento delle prestazioni, indicando che l'identificazione precisa di ciò che deve essere disimparato è più importante della scala dei dati.
Gli attacchi backdoor sono una forma di attacco di avvelenamento dei dati, che introducono vulnerabilità nascoste nei modelli modificando una piccola quantità di dati di addestramento. I modelli multimodali come CLIP sono diventati bersagli principali a causa delle loro ampie applicazioni.
Il disimparare automatico mira a rimuovere selettivamente comportamenti di apprendimento specifici, diviso in disimparare esatto e approssimato. I metodi esistenti hanno efficacia limitata nel compito di rimozione dei backdoor.
L'aritmetica dei compiti codifica i compiti di apprendimento come vettori nello spazio dei pesi, consentendo l'aggiunta, la rimozione e la combinazione di compiti mediante operazioni lineari. La proprietà di disaccoppiamento dei pesi è la base teorica dell'efficacia di queste operazioni.
Dipendenza dall'Ipotesi: Il metodo si basa sull'ipotesi di disaccoppiamento dei pesi, potrebbe non applicarsi a tutte le architetture di modelli
Tipi di Attacco: Principalmente verificato su attacchi standard, la robustezza contro attacchi più complessi richiede ulteriore ricerca
Dipendenza da DECREE: Lo scenario di attacco sconosciuto dipende dalla capacità di rilevamento di DECREE, con efficacia limitata su alcuni attacchi (come BadCLIP)
Innovazione Teorica: Prima applicazione sistematica della teoria del disaccoppiamento dei pesi alla protezione dai backdoor, fornendo una nuova prospettiva teorica
Semplicità del Metodo: Il metodo TBAR è semplice ed efficace, facile da implementare e distribuire
Esperimenti Completi: Copertura di vari tipi di attacco, dataset e architetture di modelli, con design sperimentale adeguato
Valore Pratico: Riduzione significativa dei requisiti di dati, con importante valore nella distribuzione pratica
Valore Accademico: Fornisce nuove prospettive per la ricerca sulla protezione dai backdoor, potrebbe ispirare più metodi di protezione basati sullo spazio dei pesi
Valore Pratico: Prospettive di applicazione importanti nella distribuzione di modelli su larga scala
Riproducibilità: Fornisce impostazioni sperimentali dettagliate e dettagli di implementazione, facilitando la riproduzione