Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic
Verbesserung der adversarialen Übertragbarkeit durch Gemeinsamkeitsorientierte Gradientenoptimierung
Die Erforschung effektiver und übertragbarer adversarialer Beispiele ist entscheidend für das Verständnis der Eigenschaften und Mechanismen von Vision Transformers (ViTs). Allerdings zeigen von Proxy-Modellen generierte adversariale Beispiele in Black-Box-Szenarien aufgrund von Überanpassung häufig schwache Übertragbarkeit. Bestehende Methoden verbessern die Übertragbarkeit durch Diversifizierung von Störungseingaben oder durch Anwendung einheitlicher Gradientenregularisierung innerhalb von Proxy-Modellen, nutzen aber nicht vollständig die gemeinsamen und einzigartigen Merkmale von Proxy-Modellen, die auf derselben Aufgabe trainiert wurden, was zu suboptimaler Transferleistung führt. Daher bietet die Verstärkung von Störungen, die gemeinsame Informationen von Proxy-Modellen nutzen, und die Unterdrückung von Störungen, die mit individuellen Merkmalen verbunden sind, einen wirksamen Weg zur Verbesserung der Übertragbarkeit. Dementsprechend schlagen wir eine gemeinsamkeitsorientierte Gradientenoptimierungsstrategie (COGO) vor, die zwei Komponenten umfasst: Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS). CE stört niederfrequente Regionen und nutzt die Tatsache, dass ViTs, die auf demselben Datensatz trainiert wurden, dazu neigen, sich bei der Klassifizierung stärker auf Mittel- bis Niederfrequenzinformationen zu verlassen. IS verwendet adaptive Schwellenwertbewertung, um die Korrelation zwischen rückwärts propagierten Gradienten und Modellindividualität zu bewerten und weist Gradienten entsprechend Gewichte zu. Umfangreiche Experimente zeigen, dass COGO die Erfolgsquote adversarialer Angriffe erheblich erhöht und aktuelle hochmoderne Methoden übertrifft.
Dieses Papier behandelt hauptsächlich das Übertragbarkeitsproblem bei adversarialen Angriffen auf Vision Transformers (ViTs). Konkret: Wenn Proxy-Modelle zur Generierung adversarialer Beispiele zum Angriff auf unbekannte Zielmodelle verwendet werden, können die generierten adversarialen Beispiele häufig nicht effektiv auf das Zielmodell übertragen werden, was zu Angriffsfehlern führt.
Sicherheitskritische Anwendungen: Die Zuverlässigkeit von ViTs in sicherheitskritischen Anwendungen wird durch adversariale Angriffe ernsthaft bedroht
Realismus von Black-Box-Angriffen: In praktischen Szenarien können Angreifer normalerweise nicht auf die interne Struktur des Zielmodells zugreifen, was Übertragbarkeit zu einem Schlüsselfaktor macht
Bewertung der Modellrobustheit: Das Verständnis der Übertragbarkeit adversarialer Beispiele trägt zur Bewertung und Verbesserung der Modellrobustheit bei
Überanpassung: Von bestehenden Methoden generierte adversariale Beispiele enthalten zu viele Proxy-Modell-spezifische Informationen, was zu schlechter Verallgemeinerung führt
Einheitliche Behandlung: Methoden wie TGR und GNS-HFA passen Gradienten nur basierend auf statistischen Eigenschaften einheitlich an, ohne die Korrelation zwischen Gradienten und modellspezifischen Merkmalen zu berücksichtigen
Unangemessene Frequenzbereichsnutzung: Methoden wie HFA konzentrieren sich nur auf Hochfrequenzkomponenten und ignorieren die Tatsache, dass ViTs stärker auf Mittel- bis Niederfrequenzinformationen angewiesen sind
Die Autoren beobachten, dass verschiedene ViTs, die auf demselben Datensatz trainiert wurden, trotz Architekturunterschieden Gemeinsamkeiten in Entscheidungsmustern aufweisen, insbesondere in ihrer Abhängigkeit von Mittel- bis Niederfrequenzinformationen. Daher kann die Generierung übertragbarerer adversarialer Beispiele durch Verstärkung gemeinsamer Merkmale und Unterdrückung individueller Merkmale erreicht werden.
Vorschlag einer gemeinsamkeitsorientierten Optimierungsstrategie: Erstmalige Berücksichtigung der Beziehung zwischen Gradienten und Modellmerkmalen, über traditionelle einheitliche Gradientenanpassungsmethoden hinaus
Entwicklung des COGO-Rahmens: Kombination von Gemeinsamkeitsverstärkung (CE) und Individualitätsunterdrückung (IS), unter Nutzung von Frequenzbereichsenergieverstärkung und adaptiven Schwellenwertmechanismen
Signifikante Leistungsverbesserung: Deutliche Überlegenheit gegenüber bestehenden hochmodernen Methoden in mehreren Benchmarks, einschließlich GNS-HFA und ATT
Umfassende experimentelle Validierung: Hervorragende Leistung sowohl bei ViT-zu-ViT-Übertragung als auch bei ViT-zu-CNN-Übertragung über Architekturgrenzen hinweg
Gegeben ein sauberes Eingabebild Xclean∈RN, besteht das Ziel darin, eine adversariale Störung δ zu generieren, sodass Xadv=Xclean+δ erfolgreich auf dem Proxy-Modell angreift und gute Black-Box-Übertragbarkeit auf unbekannte Zielmodelle aufweist.
Frequenzbereichs-Gemeinsamkeitsnutzung: Im Gegensatz zu HFA, das sich nur auf Hochfrequenzen konzentriert, verstärkt CE gezielt die Mittel- bis Niederfrequenzkomponenten, auf die ViTs angewiesen sind
Adaptive Gradientenunterdrückung: IS verwendet adaptive Schwellenwerte statt fester Schwellenwerte und identifiziert und unterdrückt modellspezifische Gradienten besser
Duale Optimierungsstrategie: CE und IS optimieren synergistisch von vorne und hinten und erzeugen komplementäre Effekte
TGR: Verbessert Übertragbarkeit durch Unterdrückung extremer Gradienten
GNS-HFA: Normalisiert Gradienten zu Gaußverteilung und verstärkt Hochfrequenzen
Beitrag dieses Papiers: Erstmalige Berücksichtigung der Beziehung zwischen Gradienten und Modellmerkmalen, Vorschlag gemeinsamkeitsorientierter Optimierung
Gemeinsamkeitsorientierte Optimierung ist wirksam: Durch Verstärkung modellübergreifender Gemeinsamkeiten und Unterdrückung von Individualität wird die Übertragbarkeit adversarialer Beispiele erheblich verbessert
Frequenzbereichsstrategie ist wichtig: Mittel- bis Niederfrequenzverstärkung, die auf ViT-Merkmale zugeschnitten ist, ist effektiver als traditionelle Hochfrequenzmethoden
Adaptive Unterdrückung ist überlegen: Adaptive Unterdrückung basierend auf Gradienten-Merkmal-Korrelation ist besser als einheitliche Anpassung
Architekturübergreifende Verallgemeinerung: Methode zeigt hervorragende Leistung sowohl bei ViT-zu-ViT- als auch bei ViT-zu-CNN-Übertragung
Das Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich:
Vision-Transformer-Grundlagenarbeiten Dosovitskiy et al., 2020
Klassische Adversariale-Angriff-Methoden Goodfellow, 2014; Madry et al., 2017
ViT-spezifische Angriffsmethoden Zhang et al., 2023; Zhu et al., 2024
Frequenzbereichs-Angriff-Forschung Long et al., 2022
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier zu adversarialen Angriffen, das in methodischer Innovation, experimentellem Design und Ergebnisanalyse hervorragende Leistungen zeigt. Die COGO-Methode bietet durch ihre duale Strategie von Gemeinsamkeitsverstärkung und Individualitätsunterdrückung eine effektive Lösung zur Verbesserung der Übertragbarkeit adversarialer Beispiele und hat bedeutenden Wert für die ViT-Sicherheitsforschung.