Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic
Amélioration de la Transférabilité Adversariale via l'Optimisation des Gradients Orientée vers la Communalité
L'exploration d'exemples adversariaux efficaces et transférables est essentielle pour comprendre les caractéristiques et les mécanismes des Vision Transformers (ViTs). Cependant, les exemples adversariaux générés par des modèles de substitution présentent souvent une transférabilité faible dans les paramètres de boîte noire en raison du surapprentissage. Les méthodes existantes améliorent la transférabilité en diversifiant les entrées perturbées ou en appliquant une régularisation de gradient uniforme au sein des modèles de substitution, mais ne tirent pas pleinement parti des caractéristiques partagées et uniques des modèles de substitution entraînés sur la même tâche, ce qui entraîne des performances de transfert sous-optimales. Par conséquent, améliorer les perturbations qui capturent les informations partagées des modèles de substitution tout en supprimant les perturbations liées aux caractéristiques individuelles offre une voie efficace pour améliorer la transférabilité. En conséquence, nous proposons une stratégie d'optimisation des gradients orientée vers la communalité (COGO), comprenant deux composants: l'amélioration de la communalité (CE) et la suppression de l'individualité (IS). CE perturbe les régions basse fréquence, exploitant le fait que les ViTs entraînés sur le même ensemble de données tendent à dépendre davantage des informations de fréquence moyenne-basse pour la classification. IS emploie un seuil adaptatif pour évaluer la corrélation entre les gradients rétropropagés et l'individualité du modèle, attribuant en conséquence des poids aux gradients. Des expériences extensives démontrent que COGO améliore significativement le taux de réussite du transfert des attaques adversariales, surpassant les méthodes de pointe actuelles.
Cet article aborde principalement le problème de transférabilité dans les attaques adversariales contre les Vision Transformers (ViTs). Plus précisément, lors de l'utilisation d'un modèle de substitution pour générer des exemples adversariaux afin d'attaquer un modèle cible inconnu, les exemples adversariaux générés ne peuvent souvent pas se transférer efficacement vers le modèle cible, entraînant l'échec de l'attaque.
Applications critiques pour la sécurité: La fiabilité des ViTs dans les applications critiques pour la sécurité est gravement menacée par les attaques adversariales
Réalisme des attaques en boîte noire: Dans les scénarios pratiques, les attaquants ne peuvent généralement pas accéder à la structure interne du modèle cible, ce qui rend la transférabilité cruciale
Évaluation de la robustesse des modèles: Comprendre la transférabilité des exemples adversariaux aide à évaluer et à améliorer la robustesse des modèles
Surapprentissage: Les exemples adversariaux générés par les méthodes existantes contiennent trop d'informations spécifiques au modèle de substitution, ce qui entraîne une mauvaise capacité de généralisation
Traitement uniforme: Des méthodes telles que TGR et GNS-HFA n'ajustent les gradients que sur la base de caractéristiques statistiques, sans tenir compte de la corrélation entre les gradients et les caractéristiques spécifiques du modèle
Utilisation inadéquate du domaine fréquentiel: Des méthodes comme HFA se concentrent uniquement sur les composantes haute fréquence, ignorant le fait que les ViTs dépendent davantage des informations de fréquence moyenne-basse
Les auteurs observent que différents ViTs entraînés sur le même ensemble de données, bien qu'ayant des différences architecturales, présentent une communalité dans leurs modèles de décision, en particulier dans leur dépendance aux informations de fréquence moyenne-basse. Par conséquent, en améliorant les caractéristiques communes et en supprimant les caractéristiques individuelles, il est possible de générer des exemples adversariaux plus transférables.
Proposition d'une stratégie d'optimisation orientée vers la communalité: Pour la première fois, considère la relation entre les gradients et les caractéristiques du modèle, allant au-delà des méthodes traditionnelles d'ajustement de gradient uniforme
Conception du cadre COGO: Combine deux composants, l'amélioration de la communalité (CE) et la suppression de l'individualité (IS), utilisant l'amélioration de l'énergie dans le domaine fréquentiel et des mécanismes de seuil adaptatif
Amélioration significative des performances: Surpasse considérablement les méthodes de pointe existantes dans plusieurs tests de référence, y compris GNS-HFA et ATT
Vérification expérimentale complète: Obtient d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert entre architectures (ViT vers CNN)
Étant donné une image d'entrée propre Xclean∈RN, l'objectif est de générer une perturbation adversariale δ telle que Xadv=Xclean+δ puisse attaquer avec succès le modèle de substitution et présente une bonne transférabilité en boîte noire vers un modèle cible inconnu.
Utilisation de la communalité dans le domaine fréquentiel: Contrairement à HFA qui se concentre uniquement sur les hautes fréquences, CE améliore spécifiquement les composantes de fréquence moyenne-basse sur lesquelles les ViTs dépendent
Suppression adaptative des gradients: IS utilise un seuil adaptatif plutôt qu'un seuil fixe, identifiant et supprimant mieux les gradients spécifiques au modèle
Stratégie d'optimisation double: CE et IS optimisent de manière synergique à partir des directions avant et arrière, formant un effet complémentaire
TGR: Réduit la variance en supprimant les gradients extrêmes
GNS-HFA: Normalise les gradients selon une distribution gaussienne et améliore les hautes fréquences
Contribution de cet article: Première considération de la relation entre les gradients et les caractéristiques du modèle, proposant une optimisation orientée vers la communalité
L'optimisation orientée vers la communalité est efficace: En améliorant la communalité entre modèles et en supprimant l'individualité, la transférabilité des exemples adversariaux est significativement améliorée
La stratégie dans le domaine fréquentiel est importante: L'amélioration des fréquences moyenne-basse adaptée aux caractéristiques des ViTs est plus efficace que les méthodes traditionnelles de haute fréquence
La suppression adaptative est supérieure: La suppression adaptative basée sur la corrélation gradient-caractéristique surpasse l'ajustement uniforme
Généralisation entre architectures: La méthode montre d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert de ViT vers CNN
Surcharge de calcul: Les transformations dans le domaine fréquentiel et l'analyse des gradients augmentent le coût de calcul
Sensibilité aux hyperparamètres: Bien que relativement robuste, la méthode nécessite toujours un ajustement approprié des paramètres
Analyse théorique: Manque d'analyse théorique approfondie sur les raisons pour lesquelles l'amélioration des fréquences moyenne-basse est plus efficace
Défense adversariale: Exploration insuffisante de la robustesse contre les méthodes de défense ciblées
L'article cite les travaux importants du domaine connexe, y compris:
Travaux fondamentaux sur Vision Transformer Dosovitskiy et al., 2020
Méthodes classiques d'attaque adversariale Goodfellow, 2014; Madry et al., 2017
Méthodes d'attaque spécifiques aux ViTs Zhang et al., 2023; Zhu et al., 2024
Recherche sur les attaques dans le domaine fréquentiel Long et al., 2022
Évaluation Globale: Ceci est un article de recherche de haute qualité sur les attaques adversariales, se distinguant par son innovation méthodologique, sa conception expérimentale et son analyse des résultats. La méthode COGO, par sa stratégie double d'amélioration de la communalité et de suppression de l'individualité, fournit une solution efficace pour améliorer la transférabilité des exemples adversariaux et possède une valeur importante pour la recherche en sécurité des ViTs.