2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Verbesserung der adversarialen Übertragbarkeit durch Gemeinsamkeitsorientierte Gradientenoptimierung

Grundlegende Informationen

  • Paper-ID: 2506.06992
  • Titel: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • Autoren: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • Zugehörige Institutionen: Tongji-Universität, Universität von Florida
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv Preprint v2)
  • Paper-Link: https://arxiv.org/abs/2506.06992

Zusammenfassung

Die Erforschung effektiver und übertragbarer adversarialer Beispiele ist entscheidend für das Verständnis der Eigenschaften und Mechanismen von Vision Transformers (ViTs). Allerdings zeigen von Proxy-Modellen generierte adversariale Beispiele in Black-Box-Szenarien aufgrund von Überanpassung häufig schwache Übertragbarkeit. Bestehende Methoden verbessern die Übertragbarkeit durch Diversifizierung von Störungseingaben oder durch Anwendung einheitlicher Gradientenregularisierung innerhalb von Proxy-Modellen, nutzen aber nicht vollständig die gemeinsamen und einzigartigen Merkmale von Proxy-Modellen, die auf derselben Aufgabe trainiert wurden, was zu suboptimaler Transferleistung führt. Daher bietet die Verstärkung von Störungen, die gemeinsame Informationen von Proxy-Modellen nutzen, und die Unterdrückung von Störungen, die mit individuellen Merkmalen verbunden sind, einen wirksamen Weg zur Verbesserung der Übertragbarkeit. Dementsprechend schlagen wir eine gemeinsamkeitsorientierte Gradientenoptimierungsstrategie (COGO) vor, die zwei Komponenten umfasst: Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS). CE stört niederfrequente Regionen und nutzt die Tatsache, dass ViTs, die auf demselben Datensatz trainiert wurden, dazu neigen, sich bei der Klassifizierung stärker auf Mittel- bis Niederfrequenzinformationen zu verlassen. IS verwendet adaptive Schwellenwertbewertung, um die Korrelation zwischen rückwärts propagierten Gradienten und Modellindividualität zu bewerten und weist Gradienten entsprechend Gewichte zu. Umfangreiche Experimente zeigen, dass COGO die Erfolgsquote adversarialer Angriffe erheblich erhöht und aktuelle hochmoderne Methoden übertrifft.

Forschungshintergrund und Motivation

1. Forschungsfrage

Dieses Papier behandelt hauptsächlich das Übertragbarkeitsproblem bei adversarialen Angriffen auf Vision Transformers (ViTs). Konkret: Wenn Proxy-Modelle zur Generierung adversarialer Beispiele zum Angriff auf unbekannte Zielmodelle verwendet werden, können die generierten adversarialen Beispiele häufig nicht effektiv auf das Zielmodell übertragen werden, was zu Angriffsfehlern führt.

2. Bedeutung des Problems

  • Sicherheitskritische Anwendungen: Die Zuverlässigkeit von ViTs in sicherheitskritischen Anwendungen wird durch adversariale Angriffe ernsthaft bedroht
  • Realismus von Black-Box-Angriffen: In praktischen Szenarien können Angreifer normalerweise nicht auf die interne Struktur des Zielmodells zugreifen, was Übertragbarkeit zu einem Schlüsselfaktor macht
  • Bewertung der Modellrobustheit: Das Verständnis der Übertragbarkeit adversarialer Beispiele trägt zur Bewertung und Verbesserung der Modellrobustheit bei

3. Einschränkungen bestehender Methoden

  • Überanpassung: Von bestehenden Methoden generierte adversariale Beispiele enthalten zu viele Proxy-Modell-spezifische Informationen, was zu schlechter Verallgemeinerung führt
  • Einheitliche Behandlung: Methoden wie TGR und GNS-HFA passen Gradienten nur basierend auf statistischen Eigenschaften einheitlich an, ohne die Korrelation zwischen Gradienten und modellspezifischen Merkmalen zu berücksichtigen
  • Unangemessene Frequenzbereichsnutzung: Methoden wie HFA konzentrieren sich nur auf Hochfrequenzkomponenten und ignorieren die Tatsache, dass ViTs stärker auf Mittel- bis Niederfrequenzinformationen angewiesen sind

4. Forschungsmotivation

Die Autoren beobachten, dass verschiedene ViTs, die auf demselben Datensatz trainiert wurden, trotz Architekturunterschieden Gemeinsamkeiten in Entscheidungsmustern aufweisen, insbesondere in ihrer Abhängigkeit von Mittel- bis Niederfrequenzinformationen. Daher kann die Generierung übertragbarerer adversarialer Beispiele durch Verstärkung gemeinsamer Merkmale und Unterdrückung individueller Merkmale erreicht werden.

Kernbeiträge

  1. Vorschlag einer gemeinsamkeitsorientierten Optimierungsstrategie: Erstmalige Berücksichtigung der Beziehung zwischen Gradienten und Modellmerkmalen, über traditionelle einheitliche Gradientenanpassungsmethoden hinaus
  2. Entwicklung des COGO-Rahmens: Kombination von Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS), unter Nutzung von Frequenzbereichsenergieverstärkung und adaptiven Schwellenwertmechanismen
  3. Signifikante Leistungsverbesserung: Deutliche Überlegenheit gegenüber bestehenden hochmodernen Methoden in mehreren Benchmarks, einschließlich GNS-HFA und ATT
  4. Umfassende experimentelle Validierung: Hervorragende Leistung sowohl bei ViT-zu-ViT-Übertragung als auch bei ViT-zu-CNN-Übertragung über Architekturgrenzen hinweg

Methodische Details

Aufgabendefinition

Gegeben ein sauberes Eingabebild XcleanRNX_{clean} \in \mathbb{R}^N, besteht das Ziel darin, eine adversariale Störung δ\delta zu generieren, sodass Xadv=Xclean+δX_{adv} = X_{clean} + \delta erfolgreich auf dem Proxy-Modell angreift und gute Black-Box-Übertragbarkeit auf unbekannte Zielmodelle aufweist.

Modellarchitektur

Die COGO-Strategie umfasst zwei Kernkomponenten:

1. Gemeinsamkeitsverstärkung (Commonality Enhancement, CE)

Das CE-Modul verstärkt Mittel- bis Niederfrequenzkomponenten während der Vorwärtspropagation:

Schritt 1: Hinzufügen der aktuellen Störung und Gaußschen Rauschens

X = X_clean + δ
X_DCT = DCT(X + ε), wobei ε ~ N(0, I_N)

Schritt 2: Berechnung der Energieverteilung und Verstärkung

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Schritt 3: Rücktransformation in den Ortsbereich und Anwendung einer räumlichen Maske

X_IDCT = IDCT(X'_DCT · M)

wobei γ die Verstärkungsstärke steuert und M eine von HFA übernommene räumliche Maske ist.

2. Individualitätsunterdrückung (Individuality Suppression, IS)

Das IS-Modul unterdrückt Proxy-Modell-spezifische Gradienten während der Rückwärtspropagation:

Unterdrückung redundanter Merkmale:

  • Verwendung von gegenseitiger Information (MI) und Pearson-Korrelationskoeffizient (PC) zur Quantifizierung von Kanalredundanz
  • Adaptiver Schwellenwert: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • Gewichtsberechnung: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • Gradientenanpassung: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

Unterdrückung zusätzlichen Wissens:

  • Für zusätzliche Token wie Destillations-Token in dateneffizienten ViTs
  • Skalierungsfaktor: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • Gradientenanpassung: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

Technische Innovationen

  1. Frequenzbereichs-Gemeinsamkeitsnutzung: Im Gegensatz zu HFA, das sich nur auf Hochfrequenzen konzentriert, verstärkt CE gezielt die Mittel- bis Niederfrequenzkomponenten, auf die ViTs angewiesen sind
  2. Adaptive Gradientenunterdrückung: IS verwendet adaptive Schwellenwerte statt fester Schwellenwerte und identifiziert und unterdrückt modellspezifische Gradienten besser
  3. Duale Optimierungsstrategie: CE und IS optimieren synergistisch von vorne und hinten und erzeugen komplementäre Effekte

Experimentelle Einrichtung

Datensätze

  • ILSVRC 2012 Validierungssatz: Zufällige Stichprobe von 1000 Bildern, dies ist die Standardeinrichtung für Transferangriff-Forschung
  • Einhaltung des experimentellen Protokolls früherer Arbeiten wie TGR

Bewertungsmetriken

  • Angriffserfolgquote (ASR): ASR=Anzahl erfolgreicher AngriffeGesamtanzahl Angriffe×100%\text{ASR} = \frac{\text{Anzahl erfolgreicher Angriffe}}{\text{Gesamtanzahl Angriffe}} \times 100\%
  • Misst den Anteil adversarialer Beispiele, die zu Fehlklassifizierungen des Zielmodells führen

Vergleichsmethoden

  • Hauptbaselines: TGR (speziell für ViTs entwickelt)
  • Neueste Methoden: GNS-HFA, ATT
  • Klassische Methoden: MIM, SINI-FGSM, PNA, SSA

Experimentelle Modelle

  • Proxy-Modelle: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • ViT-Zielmodelle: TNT-S, ConViT-B usw.
  • CNN-Zielmodelle: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • Verteidigungsmodelle: Gegen adversariales Training gehärtete Ensemble-Modelle

Implementierungsdetails

  • Anzahl der Angriffsiterationen: 10
  • Maximale \ell_\infty Störung: ϵ=8\epsilon = 8 (Skalierung 0-255)
  • Schlüsselhyperparameter: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

Experimentelle Ergebnisse

Hauptergebnisse

ViT-zu-ViT-Übertragungsleistung:

  • Durchschnittliche Verbesserung von 7,2% gegenüber GNS-HFA
  • Durchschnittliche Verbesserung von 10,1% gegenüber ATT
  • Beste Leistung auf allen getesteten ViT-Architekturen

Architekturübergreifende Übertragungsleistung (ViT → CNN):

  • Durchschnittliche Verbesserung von 2,3% gegenüber GNS-HFA
  • Durchschnittliche Verbesserung von 10,5% gegenüber ATT
  • Aufrechterhaltung guter Angriffseffektivität auch auf Verteidigungsmodellen

Spezifische numerische Beispiele (mit Visformer-S als Proxy-Modell):

MethodeViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49,1%54,1%81,3%71,6%71,3%
COGO55,2%64,9%85,5%71,8%72,4%

Ablationsstudien

Beitrag der CE- und IS-Komponenten:

CEISViTsCNNsCNNs-adv
--46,64%30,45%9,80%
-72,56% (+25,92%)56,18% (+25,73%)32,15% (+22,35%)
-62,38% (+15,74%)45,85% (+15,40%)22,77% (+12,97%)
77,97% (+31,33%)63,73% (+33,28%)36,75% (+26,95%)

Wichtige Erkenntnisse:

  • Die CE-Komponente trägt mehr bei und beweist die Bedeutung der Frequenzbereichsverstärkung
  • Die IS-Komponente bietet effektive Ergänzung, beste Ergebnisse bei Kombination beider
  • Signifikante Verbesserungen auf allen Modelltypen

Hyperparameter-Sensitivitätsanalyse:

  • Verstärkungskoeffizient γ = 1 zeigt beste Leistung
  • Iterationszahl N = 10 erreicht Leistungsausgleich
  • Anzahl der Kanalpaare hat geringen Einfluss auf Ergebnisse, beweist Robustheit der Methode

Gradientenanalyse

Durch Gradientendispersionsmetriken-Analyse wurde festgestellt:

  • COGO führt zu gleichmäßigerer und vielfältigerer Gradientenverteilung
  • Reduziert Abhängigkeit von Proxy-Modell-spezifischen Merkmalen
  • Komplementarität von CE und IS zeigt sich deutlich in verschiedenen Schichten

Verwandte Arbeiten

ViT-Adversariale-Angriff-Forschung

  • Frühe Methoden: Hauptsächlich für CNNs entwickelt, wie BIM, PGD, MIM
  • Eingabetransformationsmethoden: DIM, TIM verbessern Übertragbarkeit durch Eingabetransformation
  • Frequenzbereichsmethoden: SSA erforscht Frequenzbereichsverwundbarkeiten, aber nicht für ViTs optimiert

ViT-spezifische Methoden

  • TGR: Verbessert Übertragbarkeit durch Unterdrückung extremer Gradienten
  • GNS-HFA: Normalisiert Gradienten zu Gaußverteilung und verstärkt Hochfrequenzen
  • Beitrag dieses Papiers: Erstmalige Berücksichtigung der Beziehung zwischen Gradienten und Modellmerkmalen, Vorschlag gemeinsamkeitsorientierter Optimierung

ViT-Architekturanalyse

Die Autoren klassifizieren ViT-Varianten in zwei Kategorien:

  1. Recheneffizienztyp: Visformer, PiT usw., vereinfachen Aufmerksamkeitsoperationen
  2. Dateneffizienztyp: DeiT, CaiT usw., verbessern Darstellungsfähigkeit durch Wissensdestillation usw.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Gemeinsamkeitsorientierte Optimierung ist wirksam: Durch Verstärkung modellübergreifender Gemeinsamkeiten und Unterdrückung von Individualität wird die Übertragbarkeit adversarialer Beispiele erheblich verbessert
  2. Frequenzbereichsstrategie ist wichtig: Mittel- bis Niederfrequenzverstärkung, die auf ViT-Merkmale zugeschnitten ist, ist effektiver als traditionelle Hochfrequenzmethoden
  3. Adaptive Unterdrückung ist überlegen: Adaptive Unterdrückung basierend auf Gradienten-Merkmal-Korrelation ist besser als einheitliche Anpassung
  4. Architekturübergreifende Verallgemeinerung: Methode zeigt hervorragende Leistung sowohl bei ViT-zu-ViT- als auch bei ViT-zu-CNN-Übertragung

Einschränkungen

  1. Rechenkomplexität: Frequenzbereichstransformation und Gradientenanalyse erhöhen Rechenkosten
  2. Hyperparameter-Sensitivität: Obwohl relativ robust, erfordert immer noch angemessene Parameteranpassung
  3. Theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum Mittel- bis Niederfrequenzverstärkung effektiver ist
  4. Verteidigungsrobustheit: Unzureichende Erforschung der Robustheit gegen gezielte Verteidigungsmethoden

Zukünftige Richtungen

  1. Theoretische Verbesserung: Tiefgehende Analyse der theoretischen Grundlagen von Frequenzbereichs-Gemeinsamkeiten
  2. Effizienzoptimierung: Reduzierung von Rechenkosten, Verbesserung der Praktikabilität
  3. Verteidigungsforschung: Erforschung von Verteidigungsmechanismen gegen COGO
  4. Erweiterte Anwendungen: Erweiterung der Methode auf andere Vision-Transformer-Varianten

Tiefgehende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Analyse der Übertragbarkeit adversarialer Beispiele aus Gemeinsamkeits-Individualitäts-Perspektive, neuartige Denkweise
  2. Systematische Methode: CE- und IS-Komponenten sind gut konzipiert und bilden einen vollständigen Optimierungsrahmen
  3. Umfassende Experimente: Abdeckung mehrerer Modellarchitekturen und Angriffsszenarien mit überzeugenden Ergebnissen
  4. Signifikante Leistung: Deutliche Verbesserung gegenüber bestehenden Methoden, erreicht neuen SOTA-Standard
  5. Tiefgehende Analyse: Bietet tiefgehende Einblicke wie Gradientendispersionsanalyse

Mängel

  1. Theoretische Grundlagen: Theoretische Erklärung von Mittel- bis Niederfrequenz-Gemeinsamkeiten nicht ausreichend tiefgehend
  2. Recheneffizienz: Frequenzbereichstransformation und Gradientenanalyse erhöhen Rechenkomplexität
  3. Anwendungsbereich: Hauptsächlich auf ViTs ausgerichtet, begrenzte Anwendbarkeit auf andere Architekturen
  4. Verteidigungsüberlegungen: Unzureichende Berücksichtigung adaptiver Verteidigungseffekte

Einflussfähigkeit

  1. Akademischer Wert: Bietet neue Optimierungsideen für Adversariale-Angriff-Forschung
  2. Praktischer Wert: Kann zur Bewertung der ViT-Robustheit verwendet werden
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
  4. Inspirationswert: Gemeinsamkeits-Individualitäts-Analysrahmen könnte andere verwandte Forschungen inspirieren

Anwendungsszenarien

  1. Modellrobustheitsbewertung: Bewertung der Sicherheit von ViTs unter adversarialen Angriffen
  2. Adversariales Training: Generierung herausfordernderer Trainingsmuster
  3. Sicherheitsforschung: Verständnis und Verbesserung der Sicherheit von Deep-Learning-Modellen
  4. Modellübergreifende Angriffe: Black-Box-Szenarien, in denen Zielmodell-Informationen nicht verfügbar sind

Referenzen

Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich:

  • Vision-Transformer-Grundlagenarbeiten Dosovitskiy et al., 2020
  • Klassische Adversariale-Angriff-Methoden Goodfellow, 2014; Madry et al., 2017
  • ViT-spezifische Angriffsmethoden Zhang et al., 2023; Zhu et al., 2024
  • Frequenzbereichs-Angriff-Forschung Long et al., 2022

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier zu adversarialen Angriffen, das in methodischer Innovation, experimentellem Design und Ergebnisanalyse hervorragende Leistungen zeigt. Die COGO-Methode bietet durch ihre duale Strategie von Gemeinsamkeitsverstärkung und Individualitätsunterdrückung eine effektive Lösung zur Verbesserung der Übertragbarkeit adversarialer Beispiele und hat bedeutenden Wert für die ViT-Sicherheitsforschung.