2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.

Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.

academic

Verbesserung der adversarialen Übertragbarkeit durch Gemeinsamkeitsorientierte Gradientenoptimierung

Grundlegende Informationen

Paper-ID: 2506.06992
Titel: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Autoren: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
Zugehörige Institutionen: Tongji-Universität, Universität von Florida
Klassifizierung: cs.CV (Computervision)
Veröffentlichungsdatum: 12. Oktober 2025 (arXiv Preprint v2)
Paper-Link: https://arxiv.org/abs/2506.06992

Zusammenfassung

Die Erforschung effektiver und übertragbarer adversarialer Beispiele ist entscheidend für das Verständnis der Eigenschaften und Mechanismen von Vision Transformers (ViTs). Allerdings zeigen von Proxy-Modellen generierte adversariale Beispiele in Black-Box-Szenarien aufgrund von Überanpassung häufig schwache Übertragbarkeit. Bestehende Methoden verbessern die Übertragbarkeit durch Diversifizierung von Störungseingaben oder durch Anwendung einheitlicher Gradientenregularisierung innerhalb von Proxy-Modellen, nutzen aber nicht vollständig die gemeinsamen und einzigartigen Merkmale von Proxy-Modellen, die auf derselben Aufgabe trainiert wurden, was zu suboptimaler Transferleistung führt. Daher bietet die Verstärkung von Störungen, die gemeinsame Informationen von Proxy-Modellen nutzen, und die Unterdrückung von Störungen, die mit individuellen Merkmalen verbunden sind, einen wirksamen Weg zur Verbesserung der Übertragbarkeit. Dementsprechend schlagen wir eine gemeinsamkeitsorientierte Gradientenoptimierungsstrategie (COGO) vor, die zwei Komponenten umfasst: Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS). CE stört niederfrequente Regionen und nutzt die Tatsache, dass ViTs, die auf demselben Datensatz trainiert wurden, dazu neigen, sich bei der Klassifizierung stärker auf Mittel- bis Niederfrequenzinformationen zu verlassen. IS verwendet adaptive Schwellenwertbewertung, um die Korrelation zwischen rückwärts propagierten Gradienten und Modellindividualität zu bewerten und weist Gradienten entsprechend Gewichte zu. Umfangreiche Experimente zeigen, dass COGO die Erfolgsquote adversarialer Angriffe erheblich erhöht und aktuelle hochmoderne Methoden übertrifft.

Forschungshintergrund und Motivation

1. Forschungsfrage

Dieses Papier behandelt hauptsächlich das Übertragbarkeitsproblem bei adversarialen Angriffen auf Vision Transformers (ViTs). Konkret: Wenn Proxy-Modelle zur Generierung adversarialer Beispiele zum Angriff auf unbekannte Zielmodelle verwendet werden, können die generierten adversarialen Beispiele häufig nicht effektiv auf das Zielmodell übertragen werden, was zu Angriffsfehlern führt.

2. Bedeutung des Problems

Sicherheitskritische Anwendungen: Die Zuverlässigkeit von ViTs in sicherheitskritischen Anwendungen wird durch adversariale Angriffe ernsthaft bedroht
Realismus von Black-Box-Angriffen: In praktischen Szenarien können Angreifer normalerweise nicht auf die interne Struktur des Zielmodells zugreifen, was Übertragbarkeit zu einem Schlüsselfaktor macht
Bewertung der Modellrobustheit: Das Verständnis der Übertragbarkeit adversarialer Beispiele trägt zur Bewertung und Verbesserung der Modellrobustheit bei

3. Einschränkungen bestehender Methoden

Überanpassung: Von bestehenden Methoden generierte adversariale Beispiele enthalten zu viele Proxy-Modell-spezifische Informationen, was zu schlechter Verallgemeinerung führt
Einheitliche Behandlung: Methoden wie TGR und GNS-HFA passen Gradienten nur basierend auf statistischen Eigenschaften einheitlich an, ohne die Korrelation zwischen Gradienten und modellspezifischen Merkmalen zu berücksichtigen
Unangemessene Frequenzbereichsnutzung: Methoden wie HFA konzentrieren sich nur auf Hochfrequenzkomponenten und ignorieren die Tatsache, dass ViTs stärker auf Mittel- bis Niederfrequenzinformationen angewiesen sind

4. Forschungsmotivation

Die Autoren beobachten, dass verschiedene ViTs, die auf demselben Datensatz trainiert wurden, trotz Architekturunterschieden Gemeinsamkeiten in Entscheidungsmustern aufweisen, insbesondere in ihrer Abhängigkeit von Mittel- bis Niederfrequenzinformationen. Daher kann die Generierung übertragbarerer adversarialer Beispiele durch Verstärkung gemeinsamer Merkmale und Unterdrückung individueller Merkmale erreicht werden.

Kernbeiträge

Vorschlag einer gemeinsamkeitsorientierten Optimierungsstrategie: Erstmalige Berücksichtigung der Beziehung zwischen Gradienten und Modellmerkmalen, über traditionelle einheitliche Gradientenanpassungsmethoden hinaus
Entwicklung des COGO-Rahmens: Kombination von Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS), unter Nutzung von Frequenzbereichsenergieverstärkung und adaptiven Schwellenwertmechanismen
Signifikante Leistungsverbesserung: Deutliche Überlegenheit gegenüber bestehenden hochmodernen Methoden in mehreren Benchmarks, einschließlich GNS-HFA und ATT
Umfassende experimentelle Validierung: Hervorragende Leistung sowohl bei ViT-zu-ViT-Übertragung als auch bei ViT-zu-CNN-Übertragung über Architekturgrenzen hinweg

Methodische Details

Aufgabendefinition

Gegeben ein sauberes Eingabebild $X_{clean} \in \mathbb{R}^N$ , besteht das Ziel darin, eine adversariale Störung $\delta$ zu generieren, sodass $X_{adv} = X_{clean} + \delta$ erfolgreich auf dem Proxy-Modell angreift und gute Black-Box-Übertragbarkeit auf unbekannte Zielmodelle aufweist.

Modellarchitektur

Die COGO-Strategie umfasst zwei Kernkomponenten:

1. Gemeinsamkeitsverstärkung (Commonality Enhancement, CE)

Das CE-Modul verstärkt Mittel- bis Niederfrequenzkomponenten während der Vorwärtspropagation:

Schritt 1: Hinzufügen der aktuellen Störung und Gaußschen Rauschens

X = X_clean + δ
X_DCT = DCT(X + ε), wobei ε ~ N(0, I_N)

Schritt 2: Berechnung der Energieverteilung und Verstärkung

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Schritt 3: Rücktransformation in den Ortsbereich und Anwendung einer räumlichen Maske

X_IDCT = IDCT(X'_DCT · M)

wobei γ die Verstärkungsstärke steuert und M eine von HFA übernommene räumliche Maske ist.

2. Individualitätsunterdrückung (Individuality Suppression, IS)

Das IS-Modul unterdrückt Proxy-Modell-spezifische Gradienten während der Rückwärtspropagation:

Unterdrückung redundanter Merkmale:

Verwendung von gegenseitiger Information (MI) und Pearson-Korrelationskoeffizient (PC) zur Quantifizierung von Kanalredundanz
Adaptiver Schwellenwert: $\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))$
Gewichtsberechnung: $w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))$
Gradientenanpassung: $\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i$

Unterdrückung zusätzlichen Wissens:

Für zusätzliche Token wie Destillations-Token in dateneffizienten ViTs
Skalierungsfaktor: $c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})$
Gradientenanpassung: $\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}$

Technische Innovationen

Frequenzbereichs-Gemeinsamkeitsnutzung: Im Gegensatz zu HFA, das sich nur auf Hochfrequenzen konzentriert, verstärkt CE gezielt die Mittel- bis Niederfrequenzkomponenten, auf die ViTs angewiesen sind
Adaptive Gradientenunterdrückung: IS verwendet adaptive Schwellenwerte statt fester Schwellenwerte und identifiziert und unterdrückt modellspezifische Gradienten besser
Duale Optimierungsstrategie: CE und IS optimieren synergistisch von vorne und hinten und erzeugen komplementäre Effekte

Experimentelle Einrichtung

Datensätze

ILSVRC 2012 Validierungssatz: Zufällige Stichprobe von 1000 Bildern, dies ist die Standardeinrichtung für Transferangriff-Forschung
Einhaltung des experimentellen Protokolls früherer Arbeiten wie TGR

Bewertungsmetriken

Angriffserfolgquote (ASR): $\text{ASR} = \frac{\text{Anzahl erfolgreicher Angriffe}}{\text{Gesamtanzahl Angriffe}} \times 100\%$
Misst den Anteil adversarialer Beispiele, die zu Fehlklassifizierungen des Zielmodells führen

Vergleichsmethoden

Hauptbaselines: TGR (speziell für ViTs entwickelt)
Neueste Methoden: GNS-HFA, ATT
Klassische Methoden: MIM, SINI-FGSM, PNA, SSA

Experimentelle Modelle

Proxy-Modelle: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
ViT-Zielmodelle: TNT-S, ConViT-B usw.
CNN-Zielmodelle: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
Verteidigungsmodelle: Gegen adversariales Training gehärtete Ensemble-Modelle

Implementierungsdetails

Anzahl der Angriffsiterationen: 10
Maximale $\ell_\infty$ Störung: $\epsilon = 8$ (Skalierung 0-255)
Schlüsselhyperparameter: $\gamma = 1$ , $\alpha = 0.1$ , $\beta_{MI} = 0.5$ , $\beta_{corr} = 0.7$

Experimentelle Ergebnisse

Hauptergebnisse

ViT-zu-ViT-Übertragungsleistung:

Durchschnittliche Verbesserung von 7,2% gegenüber GNS-HFA
Durchschnittliche Verbesserung von 10,1% gegenüber ATT
Beste Leistung auf allen getesteten ViT-Architekturen

Architekturübergreifende Übertragungsleistung (ViT → CNN):

Durchschnittliche Verbesserung von 2,3% gegenüber GNS-HFA
Durchschnittliche Verbesserung von 10,5% gegenüber ATT
Aufrechterhaltung guter Angriffseffektivität auch auf Verteidigungsmodellen

Spezifische numerische Beispiele (mit Visformer-S als Proxy-Modell):

Methode	ViT-B/16	DeiT-B	TNT-S	Inc-v3	Inc-v4
GNS-HFA	49,1%	54,1%	81,3%	71,6%	71,3%
COGO	55,2%	64,9%	85,5%	71,8%	72,4%

Ablationsstudien

Beitrag der CE- und IS-Komponenten:

CE	IS	ViTs	CNNs	CNNs-adv
-	-	46,64%	30,45%	9,80%
✓	-	72,56% (+25,92%)	56,18% (+25,73%)	32,15% (+22,35%)
-	✓	62,38% (+15,74%)	45,85% (+15,40%)	22,77% (+12,97%)
✓	✓	77,97% (+31,33%)	63,73% (+33,28%)	36,75% (+26,95%)

Wichtige Erkenntnisse:

Die CE-Komponente trägt mehr bei und beweist die Bedeutung der Frequenzbereichsverstärkung
Die IS-Komponente bietet effektive Ergänzung, beste Ergebnisse bei Kombination beider
Signifikante Verbesserungen auf allen Modelltypen

Hyperparameter-Sensitivitätsanalyse:

Verstärkungskoeffizient γ = 1 zeigt beste Leistung
Iterationszahl N = 10 erreicht Leistungsausgleich
Anzahl der Kanalpaare hat geringen Einfluss auf Ergebnisse, beweist Robustheit der Methode

Gradientenanalyse

Durch Gradientendispersionsmetriken-Analyse wurde festgestellt:

COGO führt zu gleichmäßigerer und vielfältigerer Gradientenverteilung
Reduziert Abhängigkeit von Proxy-Modell-spezifischen Merkmalen
Komplementarität von CE und IS zeigt sich deutlich in verschiedenen Schichten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Gemeinsamkeitsorientierte Optimierung ist wirksam: Durch Verstärkung modellübergreifender Gemeinsamkeiten und Unterdrückung von Individualität wird die Übertragbarkeit adversarialer Beispiele erheblich verbessert
Frequenzbereichsstrategie ist wichtig: Mittel- bis Niederfrequenzverstärkung, die auf ViT-Merkmale zugeschnitten ist, ist effektiver als traditionelle Hochfrequenzmethoden
Adaptive Unterdrückung ist überlegen: Adaptive Unterdrückung basierend auf Gradienten-Merkmal-Korrelation ist besser als einheitliche Anpassung
Architekturübergreifende Verallgemeinerung: Methode zeigt hervorragende Leistung sowohl bei ViT-zu-ViT- als auch bei ViT-zu-CNN-Übertragung

Einschränkungen

Rechenkomplexität: Frequenzbereichstransformation und Gradientenanalyse erhöhen Rechenkosten
Hyperparameter-Sensitivität: Obwohl relativ robust, erfordert immer noch angemessene Parameteranpassung
Theoretische Analyse: Mangel an tiefgehender theoretischer Analyse, warum Mittel- bis Niederfrequenzverstärkung effektiver ist
Verteidigungsrobustheit: Unzureichende Erforschung der Robustheit gegen gezielte Verteidigungsmethoden

Zukünftige Richtungen

Theoretische Verbesserung: Tiefgehende Analyse der theoretischen Grundlagen von Frequenzbereichs-Gemeinsamkeiten
Effizienzoptimierung: Reduzierung von Rechenkosten, Verbesserung der Praktikabilität
Verteidigungsforschung: Erforschung von Verteidigungsmechanismen gegen COGO
Erweiterte Anwendungen: Erweiterung der Methode auf andere Vision-Transformer-Varianten

Tiefgehende Bewertung

Stärken

Starke Innovativität: Erstmalige Analyse der Übertragbarkeit adversarialer Beispiele aus Gemeinsamkeits-Individualitäts-Perspektive, neuartige Denkweise
Systematische Methode: CE- und IS-Komponenten sind gut konzipiert und bilden einen vollständigen Optimierungsrahmen
Umfassende Experimente: Abdeckung mehrerer Modellarchitekturen und Angriffsszenarien mit überzeugenden Ergebnissen
Signifikante Leistung: Deutliche Verbesserung gegenüber bestehenden Methoden, erreicht neuen SOTA-Standard
Tiefgehende Analyse: Bietet tiefgehende Einblicke wie Gradientendispersionsanalyse

Mängel

Theoretische Grundlagen: Theoretische Erklärung von Mittel- bis Niederfrequenz-Gemeinsamkeiten nicht ausreichend tiefgehend
Recheneffizienz: Frequenzbereichstransformation und Gradientenanalyse erhöhen Rechenkomplexität
Anwendungsbereich: Hauptsächlich auf ViTs ausgerichtet, begrenzte Anwendbarkeit auf andere Architekturen
Verteidigungsüberlegungen: Unzureichende Berücksichtigung adaptiver Verteidigungseffekte

Einflussfähigkeit

Akademischer Wert: Bietet neue Optimierungsideen für Adversariale-Angriff-Forschung
Praktischer Wert: Kann zur Bewertung der ViT-Robustheit verwendet werden
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen
Inspirationswert: Gemeinsamkeits-Individualitäts-Analysrahmen könnte andere verwandte Forschungen inspirieren

Anwendungsszenarien

Modellrobustheitsbewertung: Bewertung der Sicherheit von ViTs unter adversarialen Angriffen
Adversariales Training: Generierung herausfordernderer Trainingsmuster
Sicherheitsforschung: Verständnis und Verbesserung der Sicherheit von Deep-Learning-Modellen
Modellübergreifende Angriffe: Black-Box-Szenarien, in denen Zielmodell-Informationen nicht verfügbar sind

Referenzen

Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich:

Vision-Transformer-Grundlagenarbeiten Dosovitskiy et al., 2020
Klassische Adversariale-Angriff-Methoden Goodfellow, 2014; Madry et al., 2017
ViT-spezifische Angriffsmethoden Zhang et al., 2023; Zhu et al., 2024
Frequenzbereichs-Angriff-Forschung Long et al., 2022

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier zu adversarialen Angriffen, das in methodischer Innovation, experimentellem Design und Ergebnisanalyse hervorragende Leistungen zeigt. Die COGO-Methode bietet durch ihre duale Strategie von Gemeinsamkeitsverstärkung und Individualitätsunterdrückung eine effektive Lösung zur Verbesserung der Übertragbarkeit adversarialer Beispiele und hat bedeutenden Wert für die ViT-Sicherheitsforschung.