Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic
Potenziamento della Trasferibilità Avversaria tramite Ottimizzazione del Gradiente Orientata alla Comunanza
L'esplorazione di campioni avversari efficaci e trasferibili è essenziale per comprendere le caratteristiche e i meccanismi dei Vision Transformers (ViT). Tuttavia, i campioni avversari generati da modelli proxy spesso mostrano una trasferibilità debole in ambienti black-box a causa dell'overfitting. I metodi esistenti migliorano la trasferibilità diversificando gli input perturbati o applicando regolarizzazione del gradiente uniforme all'interno dei modelli proxy, ma non sfruttano adeguatamente le caratteristiche condivise e uniche dei modelli proxy addestrati sulla stessa attività, risultando in prestazioni di trasferimento subottimali. Pertanto, migliorare le perturbazioni che catturano le informazioni condivise tra i modelli proxy e sopprimere le perturbazioni correlate alle caratteristiche individuali offre un percorso efficace per migliorare la trasferibilità. Di conseguenza, proponiamo una strategia di ottimizzazione del gradiente orientata alla comunanza (COGO), comprendente due componenti: Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS). CE perturba le regioni a bassa frequenza, sfruttando il fatto che i ViT addestrati sullo stesso dataset tendono a dipendere maggiormente dalle informazioni a media-bassa frequenza per la classificazione. IS impiega una soglia adattiva per valutare la correlazione tra i gradienti della retropropagazione e l'individualità del modello, assegnando di conseguenza pesi ai gradienti. Esperimenti estensivi dimostrano che COGO aumenta significativamente il tasso di successo di trasferimento degli attacchi avversari, superando i metodi all'avanguardia attuali.
Questo articolo affronta principalmente il problema della trasferibilità negli attacchi avversari ai Vision Transformers (ViT). Nello specifico, quando si utilizzano modelli proxy per generare campioni avversari al fine di attaccare modelli target sconosciuti, i campioni avversari generati spesso non si trasferiscono efficacemente al modello target, causando il fallimento dell'attacco.
Applicazioni Critiche per la Sicurezza: L'affidabilità dei ViT in applicazioni critiche per la sicurezza è gravemente minacciata dagli attacchi avversari
Realismo degli Attacchi Black-box: In scenari reali, gli attaccanti generalmente non possono accedere alla struttura interna del modello target, rendendo la trasferibilità critica
Valutazione della Robustezza del Modello: Comprendere la trasferibilità dei campioni avversari aiuta a valutare e migliorare la robustezza del modello
Overfitting Eccessivo: I metodi esistenti generano campioni avversari contenenti troppe informazioni specifiche del modello proxy, risultando in scarsa capacità di generalizzazione
Trattamento Uniforme: Metodi come TGR e GNS-HFA regolano i gradienti uniformemente solo sulla base di proprietà statistiche, senza considerare la correlazione tra i gradienti e le caratteristiche specifiche del modello
Utilizzo Improprio del Dominio della Frequenza: Metodi come HFA si concentrano solo sulle componenti ad alta frequenza, trascurando il fatto che i ViT dipendono maggiormente dalle informazioni a media-bassa frequenza
Gli autori osservano che diversi ViT addestrati sullo stesso dataset, sebbene presentino differenze architettoniche, condividono comunanze nei modelli decisionali, in particolare nella dipendenza dalle informazioni a media-bassa frequenza. Pertanto, migliorando le caratteristiche comuni e sopprimendo quelle individuali, è possibile generare campioni avversari più trasferibili.
Proposta di una Strategia di Ottimizzazione Orientata alla Comunanza: Per la prima volta, considera la relazione tra i gradienti e le caratteristiche del modello, andando oltre i tradizionali metodi di regolazione uniforme del gradiente
Progettazione del Framework COGO: Combina due componenti, Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS), sfruttando l'aumento dell'energia nel dominio della frequenza e meccanismi di soglia adattiva
Miglioramento Significativo delle Prestazioni: Supera significativamente i metodi all'avanguardia attuali in molteplici benchmark, inclusi GNS-HFA e ATT
Verifica Sperimentale Completa: Raggiunge prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità cross-architettura da ViT a CNN
Dato un'immagine di input pulita Xclean∈RN, l'obiettivo è generare una perturbazione avversaria δ tale che Xadv=Xclean+δ possa attaccare con successo il modello proxy e possedere una buona trasferibilità black-box a modelli target sconosciuti.
Utilizzo della Comunanza nel Dominio della Frequenza: A differenza di HFA che si concentra solo sulle alte frequenze, CE migliora specificamente le componenti a media-bassa frequenza su cui i ViT si basano
Soppressione Adattiva del Gradiente: IS utilizza una soglia adattiva piuttosto che una soglia fissa, identificando e sopprimendo meglio i gradienti specifici del modello
Strategia di Ottimizzazione Duale: CE e IS ottimizzano in modo cooperativo dalle direzioni in avanti e all'indietro, formando un effetto complementare
TGR: Riduce la varianza sopprimendo i gradienti estremi
GNS-HFA: Normalizza i gradienti a una distribuzione gaussiana e migliora le alte frequenze
Contributo di questo Articolo: Per la prima volta considera la relazione tra i gradienti e le caratteristiche del modello, proponendo un'ottimizzazione orientata alla comunanza
Gli autori classificano le varianti ViT in due categorie:
Tipo Efficiente dal Punto di Vista Computazionale: Visformer, PiT, ecc., che semplificano le operazioni di attenzione
Tipo Efficiente dal Punto di Vista dei Dati: DeiT, CaiT, ecc., che migliorano la capacità di rappresentazione attraverso la distillazione della conoscenza
Efficacia dell'Ottimizzazione Orientata alla Comunanza: Migliorando significativamente le informazioni comuni tra i modelli proxy e sopprimendo le caratteristiche individuali, la trasferibilità dei campioni avversari aumenta notevolmente
Importanza della Strategia nel Dominio della Frequenza: Il miglioramento a media-bassa frequenza specifico per i ViT è più efficace dei tradizionali metodi ad alta frequenza
Superiorità della Soppressione Adattiva: La soppressione adattiva basata sulla correlazione gradiente-caratteristica supera l'aggiustamento uniforme
Generalizzazione Cross-architettura: Il metodo mostra prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità da ViT a CNN
Forte Innovatività: Per la prima volta analizza la trasferibilità dei campioni avversari da una prospettiva comunanza-individualità, con un approccio innovativo
Metodo Sistematico: I due componenti CE e IS sono ben progettati e formano un framework di ottimizzazione completo
Esperimenti Completi: Coprono molteplici architetture di modelli e scenari di attacco, con risultati convincenti
Prestazioni Significative: Miglioramenti evidenti rispetto ai metodi esistenti, raggiungendo il nuovo livello SOTA
Analisi Approfondita: Fornisce intuizioni approfondite come l'analisi della dispersione del gradiente
L'articolo cita lavori importanti nel campo correlato, inclusi:
Lavori fondamentali su Vision Transformer Dosovitskiy et al., 2020
Metodi classici di attacco avversario Goodfellow, 2014; Madry et al., 2017
Metodi di attacco specifici per ViT Zhang et al., 2023; Zhu et al., 2024
Ricerca su attacchi nel dominio della frequenza Long et al., 2022
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo degli attacchi avversari, con prestazioni eccellenti in innovazione metodologica, progettazione sperimentale e analisi dei risultati. Il metodo COGO, attraverso la strategia duale di miglioramento della comunanza e soppressione dell'individualità, fornisce una soluzione efficace per migliorare la trasferibilità dei campioni avversari, con un valore importante per la ricerca sulla sicurezza dei ViT.