2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Potenziamento della Trasferibilità Avversaria tramite Ottimizzazione del Gradiente Orientata alla Comunanza

Informazioni Fondamentali

  • ID Articolo: 2506.06992
  • Titolo: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • Autori: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • Istituzioni di Appartenenza: Università di Tongji, Università della Florida
  • Classificazione: cs.CV (Visione Artificiale)
  • Data di Pubblicazione: 12 ottobre 2025 (preprint arXiv v2)
  • Link dell'Articolo: https://arxiv.org/abs/2506.06992

Riassunto

L'esplorazione di campioni avversari efficaci e trasferibili è essenziale per comprendere le caratteristiche e i meccanismi dei Vision Transformers (ViT). Tuttavia, i campioni avversari generati da modelli proxy spesso mostrano una trasferibilità debole in ambienti black-box a causa dell'overfitting. I metodi esistenti migliorano la trasferibilità diversificando gli input perturbati o applicando regolarizzazione del gradiente uniforme all'interno dei modelli proxy, ma non sfruttano adeguatamente le caratteristiche condivise e uniche dei modelli proxy addestrati sulla stessa attività, risultando in prestazioni di trasferimento subottimali. Pertanto, migliorare le perturbazioni che catturano le informazioni condivise tra i modelli proxy e sopprimere le perturbazioni correlate alle caratteristiche individuali offre un percorso efficace per migliorare la trasferibilità. Di conseguenza, proponiamo una strategia di ottimizzazione del gradiente orientata alla comunanza (COGO), comprendente due componenti: Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS). CE perturba le regioni a bassa frequenza, sfruttando il fatto che i ViT addestrati sullo stesso dataset tendono a dipendere maggiormente dalle informazioni a media-bassa frequenza per la classificazione. IS impiega una soglia adattiva per valutare la correlazione tra i gradienti della retropropagazione e l'individualità del modello, assegnando di conseguenza pesi ai gradienti. Esperimenti estensivi dimostrano che COGO aumenta significativamente il tasso di successo di trasferimento degli attacchi avversari, superando i metodi all'avanguardia attuali.

Contesto di Ricerca e Motivazione

1. Problema di Ricerca

Questo articolo affronta principalmente il problema della trasferibilità negli attacchi avversari ai Vision Transformers (ViT). Nello specifico, quando si utilizzano modelli proxy per generare campioni avversari al fine di attaccare modelli target sconosciuti, i campioni avversari generati spesso non si trasferiscono efficacemente al modello target, causando il fallimento dell'attacco.

2. Importanza del Problema

  • Applicazioni Critiche per la Sicurezza: L'affidabilità dei ViT in applicazioni critiche per la sicurezza è gravemente minacciata dagli attacchi avversari
  • Realismo degli Attacchi Black-box: In scenari reali, gli attaccanti generalmente non possono accedere alla struttura interna del modello target, rendendo la trasferibilità critica
  • Valutazione della Robustezza del Modello: Comprendere la trasferibilità dei campioni avversari aiuta a valutare e migliorare la robustezza del modello

3. Limitazioni dei Metodi Esistenti

  • Overfitting Eccessivo: I metodi esistenti generano campioni avversari contenenti troppe informazioni specifiche del modello proxy, risultando in scarsa capacità di generalizzazione
  • Trattamento Uniforme: Metodi come TGR e GNS-HFA regolano i gradienti uniformemente solo sulla base di proprietà statistiche, senza considerare la correlazione tra i gradienti e le caratteristiche specifiche del modello
  • Utilizzo Improprio del Dominio della Frequenza: Metodi come HFA si concentrano solo sulle componenti ad alta frequenza, trascurando il fatto che i ViT dipendono maggiormente dalle informazioni a media-bassa frequenza

4. Motivazione della Ricerca

Gli autori osservano che diversi ViT addestrati sullo stesso dataset, sebbene presentino differenze architettoniche, condividono comunanze nei modelli decisionali, in particolare nella dipendenza dalle informazioni a media-bassa frequenza. Pertanto, migliorando le caratteristiche comuni e sopprimendo quelle individuali, è possibile generare campioni avversari più trasferibili.

Contributi Fondamentali

  1. Proposta di una Strategia di Ottimizzazione Orientata alla Comunanza: Per la prima volta, considera la relazione tra i gradienti e le caratteristiche del modello, andando oltre i tradizionali metodi di regolazione uniforme del gradiente
  2. Progettazione del Framework COGO: Combina due componenti, Miglioramento della Comunanza (CE) e Soppressione dell'Individualità (IS), sfruttando l'aumento dell'energia nel dominio della frequenza e meccanismi di soglia adattiva
  3. Miglioramento Significativo delle Prestazioni: Supera significativamente i metodi all'avanguardia attuali in molteplici benchmark, inclusi GNS-HFA e ATT
  4. Verifica Sperimentale Completa: Raggiunge prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità cross-architettura da ViT a CNN

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un'immagine di input pulita XcleanRNX_{clean} \in \mathbb{R}^N, l'obiettivo è generare una perturbazione avversaria δ\delta tale che Xadv=Xclean+δX_{adv} = X_{clean} + \delta possa attaccare con successo il modello proxy e possedere una buona trasferibilità black-box a modelli target sconosciuti.

Architettura del Modello

La strategia COGO comprende due componenti fondamentali:

1. Miglioramento della Comunanza (Commonality Enhancement, CE)

Il modulo CE migliora le componenti a media-bassa frequenza durante la propagazione in avanti:

Passaggio 1: Aggiungere la perturbazione corrente e il rumore gaussiano

X = X_clean + δ
X_DCT = DCT(X + ε), dove ε ~ N(0, I_N)

Passaggio 2: Calcolare la distribuzione dell'energia e migliorare

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Passaggio 3: Trasformare nello spazio spaziale e applicare una maschera spaziale

X_IDCT = IDCT(X'_DCT · M)

dove γ controlla l'intensità del miglioramento e M è una maschera spaziale ereditata da HFA.

2. Soppressione dell'Individualità (Individuality Suppression, IS)

Il modulo IS sopprime i gradienti specifici del modello proxy durante la retropropagazione:

Soppressione delle Caratteristiche Ridondanti:

  • Utilizzare l'Informazione Mutua (MI) e il Coefficiente di Correlazione di Pearson (PC) per quantificare la ridondanza tra canali
  • Soglia adattiva: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • Calcolo dei pesi: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • Regolazione del gradiente: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

Soppressione della Conoscenza Aggiuntiva:

  • Per token aggiuntivi come i token di distillazione nei ViT efficienti in termini di dati
  • Fattore di scala: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • Regolazione del gradiente: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

Punti di Innovazione Tecnica

  1. Utilizzo della Comunanza nel Dominio della Frequenza: A differenza di HFA che si concentra solo sulle alte frequenze, CE migliora specificamente le componenti a media-bassa frequenza su cui i ViT si basano
  2. Soppressione Adattiva del Gradiente: IS utilizza una soglia adattiva piuttosto che una soglia fissa, identificando e sopprimendo meglio i gradienti specifici del modello
  3. Strategia di Ottimizzazione Duale: CE e IS ottimizzano in modo cooperativo dalle direzioni in avanti e all'indietro, formando un effetto complementare

Configurazione Sperimentale

Dataset

  • Set di Validazione ILSVRC 2012: Campionamento casuale di 1000 immagini, configurazione standard per la ricerca sugli attacchi di trasferimento
  • Conformità ai protocolli sperimentali di lavori precedenti come TGR

Metriche di Valutazione

  • Tasso di Successo dell'Attacco (ASR): ASR=numero di attacchi riuscitinumero totale di attacchi×100%\text{ASR} = \frac{\text{numero di attacchi riusciti}}{\text{numero totale di attacchi}} \times 100\%
  • Misura la proporzione di campioni avversari che causano la classificazione errata del modello target

Metodi di Confronto

  • Baseline Principale: TGR (progettato specificamente per i ViT)
  • Metodi Recenti: GNS-HFA, ATT
  • Metodi Classici: MIM, SINI-FGSM, PNA, SSA

Modelli Sperimentali

  • Modelli Proxy: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • Modelli Target ViT: TNT-S, ConViT-B, ecc.
  • Modelli Target CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • Modelli Difesi: Modelli di insieme addestrati in modo avversario

Dettagli di Implementazione

  • Numero di iterazioni di attacco: 10
  • Perturbazione massima \ell_\infty: ϵ=8\epsilon = 8 (scala 0-255)
  • Iperparametri chiave: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

Risultati Sperimentali

Risultati Principali

Prestazioni di Trasferibilità tra ViT:

  • Miglioramento medio del 7,2% rispetto a GNS-HFA
  • Miglioramento medio del 10,1% rispetto a ATT
  • Prestazioni migliori su tutte le architetture ViT testate

Prestazioni di Trasferibilità Cross-architettura (ViT → CNN):

  • Miglioramento medio del 2,3% rispetto a GNS-HFA
  • Miglioramento medio del 10,5% rispetto a ATT
  • Mantenimento di un buon effetto di attacco anche su modelli difesi

Esempio di Valori Numerici (con Visformer-S come modello proxy):

MetodoViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49,1%54,1%81,3%71,6%71,3%
COGO55,2%64,9%85,5%71,8%72,4%

Esperimenti di Ablazione

Contributo dei Componenti CE e IS:

CEISViTCNNCNN-adv
--46,64%30,45%9,80%
-72,56% (+25,92%)56,18% (+25,73%)32,15% (+22,35%)
-62,38% (+15,74%)45,85% (+15,40%)22,77% (+12,97%)
77,97% (+31,33%)63,73% (+33,28%)36,75% (+26,95%)

Scoperte Chiave:

  • Il componente CE contribuisce maggiormente, provando l'importanza del miglioramento nel dominio della frequenza
  • Il componente IS fornisce un supplemento efficace, con i due che insieme producono i migliori risultati
  • Miglioramenti significativi su tutti i tipi di modelli

Sensibilità degli Iperparametri:

  • L'effetto migliore si ottiene con il coefficiente di miglioramento γ = 1
  • L'equilibrio delle prestazioni si raggiunge con il numero di iterazioni N = 10
  • Il numero di coppie di canali ha un impatto minore sui risultati, provando la robustezza del metodo

Analisi del Gradiente

L'analisi attraverso metriche di dispersione del gradiente rivela:

  • COGO rende la distribuzione del gradiente più uniforme e diversificata
  • Riduce la dipendenza dalle caratteristiche specifiche del modello proxy
  • La complementarità di CE e IS è evidente in diversi strati

Lavori Correlati

Ricerca su Attacchi Avversari ai ViT

  • Metodi Iniziali: Principalmente progettati per CNN, come BIM, PGD, MIM
  • Metodi di Trasformazione dell'Input: DIM, TIM migliorano la trasferibilità attraverso la trasformazione dell'input
  • Metodi nel Dominio della Frequenza: SSA esplora le vulnerabilità nel dominio della frequenza, ma non è ottimizzato per i ViT

Metodi Specifici per ViT

  • TGR: Riduce la varianza sopprimendo i gradienti estremi
  • GNS-HFA: Normalizza i gradienti a una distribuzione gaussiana e migliora le alte frequenze
  • Contributo di questo Articolo: Per la prima volta considera la relazione tra i gradienti e le caratteristiche del modello, proponendo un'ottimizzazione orientata alla comunanza

Analisi dell'Architettura ViT

Gli autori classificano le varianti ViT in due categorie:

  1. Tipo Efficiente dal Punto di Vista Computazionale: Visformer, PiT, ecc., che semplificano le operazioni di attenzione
  2. Tipo Efficiente dal Punto di Vista dei Dati: DeiT, CaiT, ecc., che migliorano la capacità di rappresentazione attraverso la distillazione della conoscenza

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia dell'Ottimizzazione Orientata alla Comunanza: Migliorando significativamente le informazioni comuni tra i modelli proxy e sopprimendo le caratteristiche individuali, la trasferibilità dei campioni avversari aumenta notevolmente
  2. Importanza della Strategia nel Dominio della Frequenza: Il miglioramento a media-bassa frequenza specifico per i ViT è più efficace dei tradizionali metodi ad alta frequenza
  3. Superiorità della Soppressione Adattiva: La soppressione adattiva basata sulla correlazione gradiente-caratteristica supera l'aggiustamento uniforme
  4. Generalizzazione Cross-architettura: Il metodo mostra prestazioni eccellenti sia nella trasferibilità tra ViT che nella trasferibilità da ViT a CNN

Limitazioni

  1. Costo Computazionale: Le trasformazioni nel dominio della frequenza e l'analisi del gradiente aumentano il costo computazionale
  2. Sensibilità agli Iperparametri: Sebbene relativamente robusto, richiede comunque un appropriato aggiustamento dei parametri
  3. Analisi Teorica: Manca un'analisi teorica approfondita sul perché il miglioramento a media-bassa frequenza sia più efficace
  4. Difesa Avversaria: Non esplora sufficientemente la robustezza rispetto ai metodi di difesa mirati

Direzioni Future

  1. Perfezionamento Teorico: Analizzare più profondamente i fondamenti teorici della comunanza nel dominio della frequenza
  2. Ottimizzazione dell'Efficienza: Ridurre il costo computazionale e migliorare l'applicabilità pratica
  3. Ricerca sulla Difesa: Esplorare meccanismi di difesa contro COGO
  4. Estensione dell'Applicazione: Estendere il metodo ad altre varianti di Vision Transformer

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Per la prima volta analizza la trasferibilità dei campioni avversari da una prospettiva comunanza-individualità, con un approccio innovativo
  2. Metodo Sistematico: I due componenti CE e IS sono ben progettati e formano un framework di ottimizzazione completo
  3. Esperimenti Completi: Coprono molteplici architetture di modelli e scenari di attacco, con risultati convincenti
  4. Prestazioni Significative: Miglioramenti evidenti rispetto ai metodi esistenti, raggiungendo il nuovo livello SOTA
  5. Analisi Approfondita: Fornisce intuizioni approfondite come l'analisi della dispersione del gradiente

Insufficienze

  1. Fondamenti Teorici: La spiegazione teorica della comunanza a media-bassa frequenza non è sufficientemente approfondita
  2. Efficienza Computazionale: Le trasformazioni nel dominio della frequenza e l'analisi del gradiente aumentano la complessità computazionale
  3. Ambito di Applicabilità: Principalmente orientato ai ViT, con applicabilità limitata ad altre architetture
  4. Considerazione della Difesa: Non considera sufficientemente l'impatto della difesa adattiva

Impatto

  1. Valore Accademico: Fornisce una nuova prospettiva di ottimizzazione per la ricerca sugli attacchi avversari
  2. Valore Pratico: Può essere utilizzato per valutare la robustezza dei ViT
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni degli iperparametri
  4. Significato Ispiratore: Il framework di analisi comunanza-individualità potrebbe ispirare altre ricerche correlate

Scenari di Applicazione

  1. Valutazione della Robustezza del Modello: Valutare la sicurezza dei ViT sotto attacchi avversari
  2. Addestramento Avversario: Generare campioni di addestramento più impegnativi
  3. Ricerca sulla Sicurezza: Comprendere e migliorare la sicurezza dei modelli di deep learning
  4. Attacchi Cross-modello: In scenari black-box dove non è possibile ottenere informazioni sul modello target

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo correlato, inclusi:

  • Lavori fondamentali su Vision Transformer Dosovitskiy et al., 2020
  • Metodi classici di attacco avversario Goodfellow, 2014; Madry et al., 2017
  • Metodi di attacco specifici per ViT Zhang et al., 2023; Zhu et al., 2024
  • Ricerca su attacchi nel dominio della frequenza Long et al., 2022

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo degli attacchi avversari, con prestazioni eccellenti in innovazione metodologica, progettazione sperimentale e analisi dei risultati. Il metodo COGO, attraverso la strategia duale di miglioramento della comunanza e soppressione dell'individualità, fornisce una soluzione efficace per migliorare la trasferibilità dei campioni avversari, con un valore importante per la ricerca sulla sicurezza dei ViT.