2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.

Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.

academic

Potenziamento della Trasferibilità Avversaria tramite Ottimizzazione del Gradiente Orientata alla Comunanza

Informazioni Fondamentali

ID Articolo: 2506.06992
Titolo: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Autori: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
Istituzioni di Appartenenza: Università di Tongji, Università della Florida
Classificazione: cs.CV (Visione Artificiale)
Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv v2)
Link dell'Articolo: https://arxiv.org/abs/2506.06992

Riassunto

L'esplorazione di campioni avversari efficaci e trasferibili è essenziale per comprendere le caratteristiche e i meccanismi dei Vision Transformers (ViT). Tuttavia, i campioni avversari generati da modelli proxy spesso mostrano una trasferibilità debole in ambienti black-box a causa dell'overfitting. I metodi esistenti migliorano la trasferibilità diversificando gli input perturbati o applicando regolarizzazione del gradiente uniforme all'interno dei modelli proxy, ma non sfruttano adeguatamente le caratteristiche condivise e uniche dei modelli proxy addestrati sulla stessa attività, risultando in prestazioni di trasferimento subottimali. Pertanto, migliorare le perturbazioni che catturano le informazioni condivise tra i modelli proxy e sopprimere le perturbazioni correlate alle caratteristiche individuali offre un percorso efficace per migliorare la trasferibilità. Di conseguenza, proponiamo una strategia di ottimizzazione del gradiente orientata alla comunanza (COGO), comprendente due componenti: Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS). CE perturba le regioni a bassa frequenza, sfruttando il fatto che i ViT addestrati sullo stesso dataset tendono a dipendere maggiormente dalle informazioni a media-bassa frequenza per la classificazione. IS impiega una soglia adattiva per valutare la correlazione tra i gradienti della retropropagazione e l'individualità del modello, assegnando di conseguenza pesi ai gradienti. Esperimenti estensivi dimostrano che COGO aumenta significativamente il tasso di successo di trasferimento degli attacchi avversari, superando i metodi all'avanguardia attuali.

Contesto di Ricerca e Motivazione

1. Problema di Ricerca

Questo articolo affronta principalmente il problema della trasferibilità negli attacchi avversari ai Vision Transformers (ViT). Nello specifico, quando si utilizzano modelli proxy per generare campioni avversari al fine di attaccare modelli target sconosciuti, i campioni avversari generati spesso non si trasferiscono efficacemente al modello target, causando il fallimento dell'attacco.

2. Importanza del Problema

Applicazioni Critiche per la Sicurezza: L'affidabilità dei ViT in applicazioni critiche per la sicurezza è gravemente minacciata dagli attacchi avversari
Realismo degli Attacchi Black-box: In scenari reali, gli attaccanti generalmente non possono accedere alla struttura interna del modello target, rendendo la trasferibilità critica
Valutazione della Robustezza del Modello: Comprendere la trasferibilità dei campioni avversari aiuta a valutare e migliorare la robustezza del modello

3. Limitazioni dei Metodi Esistenti

Overfitting Eccessivo: I metodi esistenti generano campioni avversari contenenti troppe informazioni specifiche del modello proxy, risultando in scarsa capacità di generalizzazione
Trattamento Uniforme: Metodi come TGR e GNS-HFA regolano i gradienti uniformemente solo sulla base di proprietà statistiche, senza considerare la correlazione tra i gradienti e le caratteristiche specifiche del modello
Utilizzo Improprio del Dominio della Frequenza: Metodi come HFA si concentrano solo sulle componenti ad alta frequenza, trascurando il fatto che i ViT dipendono maggiormente dalle informazioni a media-bassa frequenza

4. Motivazione della Ricerca

Gli autori osservano che diversi ViT addestrati sullo stesso dataset, sebbene presentino differenze architettoniche, condividono comunanze nei modelli decisionali, in particolare nella dipendenza dalle informazioni a media-bassa frequenza. Pertanto, migliorando le caratteristiche comuni e sopprimendo quelle individuali, è possibile generare campioni avversari più trasferibili.

Contributi Fondamentali

Proposta di una Strategia di Ottimizzazione Orientata alla Comunanza: Per la prima volta, considera la relazione tra i gradienti e le caratteristiche del modello, andando oltre i tradizionali metodi di regolazione uniforme del gradiente
Progettazione del Framework COGO: Combina due componenti, Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS), sfruttando l'aumento dell'energia nel dominio della frequenza e meccanismi di soglia adattiva
Miglioramento Significativo delle Prestazioni: Supera significativamente i metodi all'avanguardia attuali in molteplici benchmark, inclusi GNS-HFA e ATT
Verifica Sperimentale Completa: Raggiunge prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità cross-architettura da ViT a CNN

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un'immagine di input pulita $X_{clean} \in \mathbb{R}^N$ , l'obiettivo è generare una perturbazione avversaria $\delta$ tale che $X_{adv} = X_{clean} + \delta$ possa attaccare con successo il modello proxy e possedere una buona trasferibilità black-box a modelli target sconosciuti.

Architettura del Modello

La strategia COGO comprende due componenti fondamentali:

1. Miglioramento della Comunanza (Commonality Enhancement, CE)

Il modulo CE migliora le componenti a media-bassa frequenza durante la propagazione in avanti:

Passaggio 1: Aggiungere la perturbazione corrente e il rumore gaussiano

X = X_clean + δ
X_DCT = DCT(X + ε), dove ε ~ N(0, I_N)

Passaggio 2: Calcolare la distribuzione dell'energia e migliorare

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Passaggio 3: Trasformare nello spazio spaziale e applicare una maschera spaziale

X_IDCT = IDCT(X'_DCT · M)

dove γ controlla l'intensità del miglioramento e M è una maschera spaziale ereditata da HFA.

2. Soppressione dell'Individualità (Individuality Suppression, IS)

Il modulo IS sopprime i gradienti specifici del modello proxy durante la retropropagazione:

Soppressione delle Caratteristiche Ridondanti:

Utilizzare l'Informazione Mutua (MI) e il Coefficiente di Correlazione di Pearson (PC) per quantificare la ridondanza tra canali
Soglia adattiva: $\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))$
Calcolo dei pesi: $w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))$
Regolazione del gradiente: $\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i$

Soppressione della Conoscenza Aggiuntiva:

Per token aggiuntivi come i token di distillazione nei ViT efficienti in termini di dati
Fattore di scala: $c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})$
Regolazione del gradiente: $\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}$

Punti di Innovazione Tecnica

Utilizzo della Comunanza nel Dominio della Frequenza: A differenza di HFA che si concentra solo sulle alte frequenze, CE migliora specificamente le componenti a media-bassa frequenza su cui i ViT si basano
Soppressione Adattiva del Gradiente: IS utilizza una soglia adattiva piuttosto che una soglia fissa, identificando e sopprimendo meglio i gradienti specifici del modello
Strategia di Ottimizzazione Duale: CE e IS ottimizzano in modo cooperativo dalle direzioni in avanti e all'indietro, formando un effetto complementare

Configurazione Sperimentale

Dataset

Set di Validazione ILSVRC 2012: Campionamento casuale di 1000 immagini, configurazione standard per la ricerca sugli attacchi di trasferimento
Conformità ai protocolli sperimentali di lavori precedenti come TGR

Metriche di Valutazione

Tasso di Successo dell'Attacco (ASR): $\text{ASR} = \frac{\text{numero di attacchi riusciti}}{\text{numero totale di attacchi}} \times 100\%$
Misura la proporzione di campioni avversari che causano la classificazione errata del modello target

Metodi di Confronto

Baseline Principale: TGR (progettato specificamente per i ViT)
Metodi Recenti: GNS-HFA, ATT
Metodi Classici: MIM, SINI-FGSM, PNA, SSA

Modelli Sperimentali

Modelli Proxy: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
Modelli Target ViT: TNT-S, ConViT-B, ecc.
Modelli Target CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
Modelli Difesi: Modelli di insieme addestrati in modo avversario

Dettagli di Implementazione

Numero di iterazioni di attacco: 10
Perturbazione massima $\ell_\infty$ : $\epsilon = 8$ (scala 0-255)
Iperparametri chiave: $\gamma = 1$ , $\alpha = 0.1$ , $\beta_{MI} = 0.5$ , $\beta_{corr} = 0.7$

Risultati Sperimentali

Risultati Principali

Prestazioni di Trasferibilità tra ViT:

Miglioramento medio del 7,2% rispetto a GNS-HFA
Miglioramento medio del 10,1% rispetto a ATT
Prestazioni migliori su tutte le architetture ViT testate

Prestazioni di Trasferibilità Cross-architettura (ViT → CNN):

Miglioramento medio del 2,3% rispetto a GNS-HFA
Miglioramento medio del 10,5% rispetto a ATT
Mantenimento di un buon effetto di attacco anche su modelli difesi

Esempio di Valori Numerici (con Visformer-S come modello proxy):

Metodo	ViT-B/16	DeiT-B	TNT-S	Inc-v3	Inc-v4
GNS-HFA	49,1%	54,1%	81,3%	71,6%	71,3%
COGO	55,2%	64,9%	85,5%	71,8%	72,4%

Esperimenti di Ablazione

Contributo dei Componenti CE e IS:

CE	IS	ViT	CNN	CNN-adv
-	-	46,64%	30,45%	9,80%
✓	-	72,56% (+25,92%)	56,18% (+25,73%)	32,15% (+22,35%)
-	✓	62,38% (+15,74%)	45,85% (+15,40%)	22,77% (+12,97%)
✓	✓	77,97% (+31,33%)	63,73% (+33,28%)	36,75% (+26,95%)

Scoperte Chiave:

Il componente CE contribuisce maggiormente, provando l'importanza del miglioramento nel dominio della frequenza
Il componente IS fornisce un supplemento efficace, con i due che insieme producono i migliori risultati
Miglioramenti significativi su tutti i tipi di modelli

Sensibilità degli Iperparametri:

L'effetto migliore si ottiene con il coefficiente di miglioramento γ = 1
L'equilibrio delle prestazioni si raggiunge con il numero di iterazioni N = 10
Il numero di coppie di canali ha un impatto minore sui risultati, provando la robustezza del metodo

Analisi del Gradiente

L'analisi attraverso metriche di dispersione del gradiente rivela:

COGO rende la distribuzione del gradiente più uniforme e diversificata
Riduce la dipendenza dalle caratteristiche specifiche del modello proxy
La complementarità di CE e IS è evidente in diversi strati

Lavori Correlati

Ricerca su Attacchi Avversari ai ViT

Metodi Iniziali: Principalmente progettati per CNN, come BIM, PGD, MIM
Metodi di Trasformazione dell'Input: DIM, TIM migliorano la trasferibilità attraverso la trasformazione dell'input
Metodi nel Dominio della Frequenza: SSA esplora le vulnerabilità nel dominio della frequenza, ma non è ottimizzato per i ViT

Metodi Specifici per ViT

TGR: Riduce la varianza sopprimendo i gradienti estremi
GNS-HFA: Normalizza i gradienti a una distribuzione gaussiana e migliora le alte frequenze
Contributo di questo Articolo: Per la prima volta considera la relazione tra i gradienti e le caratteristiche del modello, proponendo un'ottimizzazione orientata alla comunanza

Analisi dell'Architettura ViT

Gli autori classificano le varianti ViT in due categorie:

Tipo Efficiente dal Punto di Vista Computazionale: Visformer, PiT, ecc., che semplificano le operazioni di attenzione
Tipo Efficiente dal Punto di Vista dei Dati: DeiT, CaiT, ecc., che migliorano la capacità di rappresentazione attraverso la distillazione della conoscenza

Conclusioni e Discussione

Conclusioni Principali

Efficacia dell'Ottimizzazione Orientata alla Comunanza: Migliorando significativamente le informazioni comuni tra i modelli proxy e sopprimendo le caratteristiche individuali, la trasferibilità dei campioni avversari aumenta notevolmente
Importanza della Strategia nel Dominio della Frequenza: Il miglioramento a media-bassa frequenza specifico per i ViT è più efficace dei tradizionali metodi ad alta frequenza
Superiorità della Soppressione Adattiva: La soppressione adattiva basata sulla correlazione gradiente-caratteristica supera l'aggiustamento uniforme
Generalizzazione Cross-architettura: Il metodo mostra prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità da ViT a CNN

Limitazioni

Costo Computazionale: Le trasformazioni nel dominio della frequenza e l'analisi del gradiente aumentano il costo computazionale
Sensibilità agli Iperparametri: Sebbene relativamente robusto, richiede comunque un appropriato aggiustamento dei parametri
Analisi Teorica: Manca un'analisi teorica approfondita sul perché il miglioramento a media-bassa frequenza sia più efficace
Difesa Avversaria: Non esplora sufficientemente la robustezza rispetto ai metodi di difesa mirati

Direzioni Future

Perfezionamento Teorico: Analizzare più profondamente i fondamenti teorici della comunanza nel dominio della frequenza
Ottimizzazione dell'Efficienza: Ridurre il costo computazionale e migliorare l'applicabilità pratica
Ricerca sulla Difesa: Esplorare meccanismi di difesa contro COGO
Estensione dell'Applicazione: Estendere il metodo ad altre varianti di Vision Transformer

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Per la prima volta analizza la trasferibilità dei campioni avversari da una prospettiva comunanza-individualità, con un approccio innovativo
Metodo Sistematico: I due componenti CE e IS sono ben progettati e formano un framework di ottimizzazione completo
Esperimenti Completi: Coprono molteplici architetture di modelli e scenari di attacco, con risultati convincenti
Prestazioni Significative: Miglioramenti evidenti rispetto ai metodi esistenti, raggiungendo il nuovo livello SOTA
Analisi Approfondita: Fornisce intuizioni approfondite come l'analisi della dispersione del gradiente

Insufficienze

Fondamenti Teorici: La spiegazione teorica della comunanza a media-bassa frequenza non è sufficientemente approfondita
Efficienza Computazionale: Le trasformazioni nel dominio della frequenza e l'analisi del gradiente aumentano la complessità computazionale
Ambito di Applicabilità: Principalmente orientato ai ViT, con applicabilità limitata ad altre architetture
Considerazione della Difesa: Non considera sufficientemente l'impatto della difesa adattiva

Impatto

Valore Accademico: Fornisce una nuova prospettiva di ottimizzazione per la ricerca sugli attacchi avversari
Valore Pratico: Può essere utilizzato per valutare la robustezza dei ViT
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri
Significato Ispiratore: Il framework di analisi comunanza-individualità potrebbe ispirare altre ricerche correlate

Scenari di Applicazione

Valutazione della Robustezza del Modello: Valutare la sicurezza dei ViT sotto attacchi avversari
Addestramento Avversario: Generare campioni di addestramento più impegnativi
Ricerca sulla Sicurezza: Comprendere e migliorare la sicurezza dei modelli di deep learning
Attacchi Cross-modello: In scenari black-box dove non è possibile ottenere informazioni sul modello target

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo correlato, inclusi:

Lavori fondamentali su Vision Transformer Dosovitskiy et al., 2020
Metodi classici di attacco avversario Goodfellow, 2014; Madry et al., 2017
Metodi di attacco specifici per ViT Zhang et al., 2023; Zhu et al., 2024
Ricerca su attacchi nel dominio della frequenza Long et al., 2022

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo degli attacchi avversari, con prestazioni eccellenti in innovazione metodologica, progettazione sperimentale e analisi dei risultati. Il metodo COGO, attraverso la strategia duale di miglioramento della comunanza e soppressione dell'individualità, fornisce una soluzione efficace per migliorare la trasferibilità dei campioni avversari, con un valore importante per la ricerca sulla sicurezza dei ViT.