2025-11-17T15:13:20.278531

Backdoor Unlearning by Linear Task Decomposition

Abdelraheem, Favero, Bovet et al.
Foundation models have revolutionized computer vision by enabling broad generalization across diverse tasks. Yet, they remain highly susceptible to adversarial perturbations and targeted backdoor attacks. Mitigating such vulnerabilities remains an open challenge, especially given that the large-scale nature of the models prohibits retraining to ensure safety. Existing backdoor removal approaches rely on costly fine-tuning to override the harmful behavior, and can often degrade performance on other unrelated tasks. This raises the question of whether backdoors can be removed without compromising the general capabilities of the models. In this work, we address this question and study how backdoors are encoded in the model weight space, finding that they are disentangled from other benign tasks. Specifically, this separation enables the isolation and erasure of the backdoor's influence on the model with minimal impact on clean performance. Building on this insight, we introduce a simple unlearning method that leverages such disentanglement. Through extensive experiments with CLIP-based models and common adversarial triggers, we show that, given the knowledge of the attack, our method achieves approximately perfect unlearning, while retaining, on average, 96% of clean accuracy. Additionally, we demonstrate that even when the attack and its presence are unknown, our method successfully unlearns backdoors by proper estimation using reverse-engineered triggers. Overall, our method consistently yields better unlearning and clean accuracy tradeoffs when compared to present state-of-the-art defenses.
academic

Disimparare i Backdoor mediante Decomposizione Lineare dei Compiti

Informazioni Fondamentali

  • ID Articolo: 2510.14845
  • Titolo: Backdoor Unlearning by Linear Task Decomposition
  • Autori: Amel Abdelraheem, Alessandro Favero, Gérôme Bovet, Pascal Frossard
  • Classificazione: cs.LG cs.CV
  • Data di Pubblicazione/Conferenza: Preprint arXiv (Sottomesso il 16 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2510.14845

Riassunto

I modelli fondamentali hanno rivoluzionato la visione artificiale consentendo una generalizzazione ampia su compiti diversi. Tuttavia, rimangono altamente suscettibili a perturbazioni avversariali e attacchi backdoor mirati. La mitigazione di tali vulnerabilità rimane una sfida aperta, soprattutto considerando che la natura su larga scala dei modelli proibisce il riaddestrimento per garantire la sicurezza. Gli approcci esistenti per la rimozione dei backdoor si basano su fine-tuning costoso per annullare il comportamento dannoso e spesso possono degradare le prestazioni su altri compiti non correlati. Ciò solleva la questione se i backdoor possono essere rimossi senza compromettere le capacità generali dei modelli. In questo lavoro, affrontiamo questa questione e studiamo come i backdoor sono codificati nello spazio dei pesi del modello, scoprendo che sono disaccoppiati da altri compiti benigni. Specificamente, questa separazione consente l'isolamento e l'eliminazione dell'influenza del backdoor sul modello con un impatto minimo sulle prestazioni pulite. Basandoci su questa intuizione, introduciamo un semplice metodo di disimparare che sfrutta tale disaccoppiamento. Attraverso esperimenti estensivi con modelli basati su CLIP e trigger avversariali comuni, dimostriamo che, data la conoscenza dell'attacco, il nostro metodo raggiunge un disimparare approssimativamente perfetto, mantenendo in media il 96% dell'accuratezza pulita. Inoltre, dimostriamo che anche quando l'attacco e la sua presenza sono sconosciuti, il nostro metodo disimpara con successo i backdoor mediante stima appropriata utilizzando trigger invertiti. Nel complesso, il nostro metodo produce costantemente migliori compromessi tra disimparare e accuratezza pulita rispetto alle difese dello stato dell'arte attuale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta il problema della protezione dai backdoor (attacchi backdoor) nei modelli fondamentali di grandi dimensioni. Gli attacchi backdoor funzionano iniettando un piccolo numero di campioni contaminati con trigger specifici nei dati di addestramento, causando al modello di produrre comportamenti malevoli predeterminati quando incontra input contenenti quel trigger, mentre si comporta normalmente su input ordinari.

Importanza del Problema

  1. Minaccia alla Sicurezza: Gli attacchi backdoor rappresentano una seria minaccia per applicazioni critiche per la sicurezza come la guida autonoma e la diagnosi medica
  2. Sfida di Scala: Il costo di addestramento dei modelli fondamentali di grandi dimensioni è estremamente elevato, rendendo il completo riaddestramento per eliminare i backdoor impraticabile in pratica
  3. Requisito di Generalità: I metodi di protezione esistenti spesso danneggiano le prestazioni del modello su altri compiti, presentando problemi di dimenticanza catastrofica

Limitazioni dei Metodi Esistenti

  1. Metodi di Riaddestramento: Costo computazionale eccessivo, non praticabile per modelli su larga scala
  2. Metodi di Fine-tuning: Tendono a causare dimenticanza catastrofica, degradando le prestazioni del modello su compiti puliti
  3. Disimparare Tradizionale: Efficacia limitata nel compito di rimozione dei backdoor, specialmente scarso in configurazioni su piccola scala

Motivazione della Ricerca

Gli autori si basano sulla teoria del disaccoppiamento dei pesi (weight disentanglement), ipotizzando che il comportamento backdoor nello spazio dei pesi del modello sia separato dai compiti normali, consentendo quindi la rimozione precisa del backdoor mediante operazioni lineari senza influenzare le funzioni normali.

Contributi Fondamentali

  1. Intuizione Teorica: Prima applicazione della teoria del disaccoppiamento dei pesi all'analisi dei backdoor, provando che la conoscenza del backdoor e la conoscenza pulita sono disaccoppiate nello spazio dei pesi nei modelli Transformer di tipo CLIP
  2. Metodo TBAR: Introduzione di Trigger removal by Backdoor ARithmetic (TBAR), un metodo leggero di disimparare i backdoor basato sull'aritmetica dei vettori di compito
  3. Prestazioni Eccellenti: Raggiungimento di un tasso di rimozione del backdoor del 99% in caso di trigger noto, mantenendo il 96% dell'accuratezza pulita, con requisiti di dati inferiori di due ordini di grandezza rispetto ai metodi esistenti
  4. Scenario di Attacco Sconosciuto: Combinazione di tecniche di ingegneria inversa per rimuovere con successo i backdoor anche in caso di attacco sconosciuto, mantenendo un'accuratezza pulita superiore al 90%

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un modello θb infettato da un attacco backdoor, l'obiettivo è rimuovere il comportamento backdoor (ridurre il tasso di successo dell'attacco ASR a zero) mantenendo il più possibile le prestazioni del modello sui dati puliti (accuratezza pulita CA).

Ipotesi Fondamentale: Disaccoppiamento dei Pesi

Gli autori propongono l'ipotesi fondamentale che i pesi dei modelli fondamentali visivi soddisfino la proprietà di disaccoppiamento dei pesi per comuni attacchi backdoor, ovvero:

f(x;θpre + αcτc + αtτt) = f(x;θpre + αcτc)1(x ∈ Dc) + f(x;θpre + αtτt)1(x ∈ Dt)

Dove:

  • τc: vettore di compito pulito
  • τt: vettore di compito trigger
  • Dc: dominio di immagini pulite
  • Dt: dominio di immagini con trigger

Flusso dell'Algoritmo TBAR

1. Stima del Vettore Trigger

Fine-tuning del modello infetto utilizzando un piccolo insieme di disimparare (contenente solo campioni con trigger):

τ̂t = θb+t - θb

2. Rimozione del Backdoor

Rimozione del backdoor mediante negazione del compito (task negation):

θ̂c = θb - ατ̂t

Dove α è un coefficiente scalare che controlla l'intensità del disimparare.

3. Ottimizzazione del Coefficiente

Determinazione del valore α ottimale utilizzando un piccolo insieme di validazione mediante ricerca a griglia.

Estensione dello Scenario di Attacco Sconosciuto

Combinazione del metodo DECREE di ingegneria inversa:

  1. Utilizzo di DECREE per recuperare trigger proxy dal modello infetto
  2. Inferenza dell'etichetta target mediante sondaggio della risposta del modello
  3. Costruzione di un insieme di campioni proxy con trigger
  4. Applicazione di TBAR per la rimozione del backdoor

Configurazione Sperimentale

Dataset

  1. Classificazione Monotask: SUN397, CIFAR100, ImageNet-1K
  2. Immagine-Testo su Larga Scala: Sottoinsieme di 500k da Conceptual Captions 3M (CC3M)

Tipi di Attacchi Backdoor

  • BadNet: Inserimento di blocchi di rumore casuale 16×16 in posizioni casuali
  • Blended: Sovrapposizione di perturbazione gaussiana su tutta l'immagine (rapporto 8:2)
  • WaNet: Applicazione di sottili trasformazioni di distorsione dell'immagine
  • BadCLIP: Attacco patch ottimizzato per CLIP
  • SIG: Perturbazione sinusoidale lungo l'asse orizzontale
  • BadMerging: Attacco progettato per sopravvivere dopo la fusione del modello

Metriche di Valutazione

  • Accuratezza Pulita (CA): Accuratezza del modello su dati puliti
  • Tasso di Successo dell'Attacco (ASR): Proporzione di campioni con trigger predetti come etichetta target
  • Errore di Disaccoppiamento dei Pesi (ξ): Misura della differenza tra la combinazione di vettori di compito e l'applicazione separata

Metodi di Confronto

  • Fine-tuning su Dati Puliti: CleanCLIP, RoCLIP, fine-tuning CLIP standard
  • Disimparare Automatico: Gradient Ascent
  • Ingegneria Inversa: DECREE

Risultati Sperimentali

Risultati Principali

Esperimenti di Classificazione Monotask

Risultati su CLIP ViT-B/32:

  • SUN397: ASR ridotto da 91.40% a 1.25%, CA mantenuto al 94.96%
  • CIFAR100: ASR ridotto da 99.96% a 0.02%, CA mantenuto al 96.44%
  • ImageNet-1K: ASR ridotto da 93.56% a 1.96%, CA mantenuto al 94.97%

Esperimenti Immagine-Testo su Larga Scala

Risultati utilizzando il dataset CC3M:

  • Efficienza dei Dati: TBAR richiede solo 1.5k campioni, mentre i metodi baseline richiedono 100k campioni
  • Vantaggio di Prestazioni: Superiore ai metodi di protezione esistenti su tutti i tipi di attacco
  • Attacco BadCLIP: ASR ridotto da 99.98% a 0.77%, CA mantenuto al 56.58%

Verifica del Disaccoppiamento dei Pesi

Attraverso la visualizzazione dell'errore di disaccoppiamento dei pesi ξ(αc, αt), è confermato che il compito pulito e il compito trigger sono effettivamente separati nello spazio dei pesi, verificando la correttezza dell'ipotesi fondamentale.

Esperimenti di Trasferibilità

Utilizzo del vettore TBAR addestrato su ImageNet-1K rimane efficace su CIFAR100 e SUN397:

  • CIFAR100: Con trigger e etichetta target condivisi, tasso di rimozione ASR del 99.98%
  • SUN397: Con solo trigger condiviso, tasso di rimozione ASR ancora del 98.91%

Scenario di Attacco Sconosciuto

Risultati combinando DECREE:

  • BadNet: ASR ridotto da 84.48% a 0.33%, CA mantenuto al 60.29%
  • WaNet: ASR ridotto da 93.12% a 0.64%, CA mantenuto al 56.85%

Esperimenti di Ablazione

Impatto della Dimensione dell'Insieme di Disimparare

Gli esperimenti mostrano che l'aumento della dimensione dell'insieme di disimparare (da 300 a 30k) ha un impatto limitato sul miglioramento delle prestazioni, indicando che l'identificazione precisa di ciò che deve essere disimparato è più importante della scala dei dati.

Rapporto tra Dati Puliti e Trigger

Utilizzo di diverse proporzioni di dati puliti e trigger misti mostra che i dati di solo trigger ottengono il miglior compromesso CA-ASR.

Lavori Correlati

Attacchi di Avvelenamento dei Dati

Gli attacchi backdoor sono una forma di attacco di avvelenamento dei dati, che introducono vulnerabilità nascoste nei modelli modificando una piccola quantità di dati di addestramento. I modelli multimodali come CLIP sono diventati bersagli principali a causa delle loro ampie applicazioni.

Disimparare Automatico

Il disimparare automatico mira a rimuovere selettivamente comportamenti di apprendimento specifici, diviso in disimparare esatto e approssimato. I metodi esistenti hanno efficacia limitata nel compito di rimozione dei backdoor.

Interpolazione dei Pesi e Aritmetica dei Compiti

L'aritmetica dei compiti codifica i compiti di apprendimento come vettori nello spazio dei pesi, consentendo l'aggiunta, la rimozione e la combinazione di compiti mediante operazioni lineari. La proprietà di disaccoppiamento dei pesi è la base teorica dell'efficacia di queste operazioni.

Conclusioni e Discussione

Conclusioni Principali

  1. Verifica Teorica: Conferma del disaccoppiamento tra il comportamento backdoor e i compiti normali nello spazio dei pesi
  2. Efficacia del Metodo: TBAR dimostra prestazioni eccellenti su vari attacchi e configurazioni
  3. Valore Pratico: Riduzione significativa dei requisiti di dati e calcolo per la protezione dai backdoor

Limitazioni

  1. Dipendenza dall'Ipotesi: Il metodo si basa sull'ipotesi di disaccoppiamento dei pesi, potrebbe non applicarsi a tutte le architetture di modelli
  2. Tipi di Attacco: Principalmente verificato su attacchi standard, la robustezza contro attacchi più complessi richiede ulteriore ricerca
  3. Dipendenza da DECREE: Lo scenario di attacco sconosciuto dipende dalla capacità di rilevamento di DECREE, con efficacia limitata su alcuni attacchi (come BadCLIP)

Direzioni Future

  1. Estensione ad altre architetture di modelli e paradigmi di pre-addestramento
  2. Ricerca sulla protezione contro attacchi adattivi più complessi
  3. Esplorazione dell'applicazione del disaccoppiamento dei pesi ad altri compiti di sicurezza

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Prima applicazione sistematica della teoria del disaccoppiamento dei pesi alla protezione dai backdoor, fornendo una nuova prospettiva teorica
  2. Semplicità del Metodo: Il metodo TBAR è semplice ed efficace, facile da implementare e distribuire
  3. Esperimenti Completi: Copertura di vari tipi di attacco, dataset e architetture di modelli, con design sperimentale adeguato
  4. Valore Pratico: Riduzione significativa dei requisiti di dati, con importante valore nella distribuzione pratica

Insufficienze

  1. Limitazioni Teoriche: L'universalità dell'ipotesi di disaccoppiamento dei pesi richiede ulteriore analisi teorica
  2. Adattabilità agli Attacchi: Considerazione insufficiente di attacchi adattivi mirati a questo metodo di protezione
  3. Analisi Computazionale: Mancanza di analisi dettagliata della complessità computazionale e confronti

Impatto

  1. Valore Accademico: Fornisce nuove prospettive per la ricerca sulla protezione dai backdoor, potrebbe ispirare più metodi di protezione basati sullo spazio dei pesi
  2. Valore Pratico: Prospettive di applicazione importanti nella distribuzione di modelli su larga scala
  3. Riproducibilità: Fornisce impostazioni sperimentali dettagliate e dettagli di implementazione, facilitando la riproduzione

Scenari Applicabili

  1. Distribuzione di Modelli su Larga Scala: Particolarmente adatto a modelli fondamentali di grandi dimensioni che non possono essere riaddestrati
  2. Ambienti con Risorse Limitate: Scenari con risorse di dati e calcolo limitate
  3. Modelli Multitask: Scenari di applicazione che richiedono il mantenimento delle prestazioni multitask

Bibliografia

L'articolo cita importanti lavori in questo campo, inclusi:

  • Ilharco et al. (2022): Lavoro pioneristico sull'aritmetica dei compiti
  • Ortiz-Jimenez et al. (2024): Base teorica del disaccoppiamento dei pesi
  • Bansal et al. (2023): Metodo di benchmark per la protezione dai backdoor di CLIP
  • Carlini & Terzis (2021): Ricerca classica su attacchi backdoor di CLIP