2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Amélioration de la Transférabilité Adversariale via l'Optimisation des Gradients Orientée vers la Communalité

Informations Fondamentales

  • ID de l'article: 2506.06992
  • Titre: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • Auteurs: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • Institutions affiliées: Université Tongji, Université de Floride
  • Classification: cs.CV (Vision par Ordinateur)
  • Date de publication: 12 octobre 2025 (prépublication arXiv v2)
  • Lien de l'article: https://arxiv.org/abs/2506.06992

Résumé

L'exploration d'exemples adversariaux efficaces et transférables est essentielle pour comprendre les caractéristiques et les mécanismes des Vision Transformers (ViTs). Cependant, les exemples adversariaux générés par des modèles de substitution présentent souvent une transférabilité faible dans les paramètres de boîte noire en raison du surapprentissage. Les méthodes existantes améliorent la transférabilité en diversifiant les entrées perturbées ou en appliquant une régularisation de gradient uniforme au sein des modèles de substitution, mais ne tirent pas pleinement parti des caractéristiques partagées et uniques des modèles de substitution entraînés sur la même tâche, ce qui entraîne des performances de transfert sous-optimales. Par conséquent, améliorer les perturbations qui capturent les informations partagées des modèles de substitution tout en supprimant les perturbations liées aux caractéristiques individuelles offre une voie efficace pour améliorer la transférabilité. En conséquence, nous proposons une stratégie d'optimisation des gradients orientée vers la communalité (COGO), comprenant deux composants: l'amélioration de la communalité (CE) et la suppression de l'individualité (IS). CE perturbe les régions basse fréquence, exploitant le fait que les ViTs entraînés sur le même ensemble de données tendent à dépendre davantage des informations de fréquence moyenne-basse pour la classification. IS emploie un seuil adaptatif pour évaluer la corrélation entre les gradients rétropropagés et l'individualité du modèle, attribuant en conséquence des poids aux gradients. Des expériences extensives démontrent que COGO améliore significativement le taux de réussite du transfert des attaques adversariales, surpassant les méthodes de pointe actuelles.

Contexte et Motivation de la Recherche

1. Problème de Recherche

Cet article aborde principalement le problème de transférabilité dans les attaques adversariales contre les Vision Transformers (ViTs). Plus précisément, lors de l'utilisation d'un modèle de substitution pour générer des exemples adversariaux afin d'attaquer un modèle cible inconnu, les exemples adversariaux générés ne peuvent souvent pas se transférer efficacement vers le modèle cible, entraînant l'échec de l'attaque.

2. Importance du Problème

  • Applications critiques pour la sécurité: La fiabilité des ViTs dans les applications critiques pour la sécurité est gravement menacée par les attaques adversariales
  • Réalisme des attaques en boîte noire: Dans les scénarios pratiques, les attaquants ne peuvent généralement pas accéder à la structure interne du modèle cible, ce qui rend la transférabilité cruciale
  • Évaluation de la robustesse des modèles: Comprendre la transférabilité des exemples adversariaux aide à évaluer et à améliorer la robustesse des modèles

3. Limitations des Méthodes Existantes

  • Surapprentissage: Les exemples adversariaux générés par les méthodes existantes contiennent trop d'informations spécifiques au modèle de substitution, ce qui entraîne une mauvaise capacité de généralisation
  • Traitement uniforme: Des méthodes telles que TGR et GNS-HFA n'ajustent les gradients que sur la base de caractéristiques statistiques, sans tenir compte de la corrélation entre les gradients et les caractéristiques spécifiques du modèle
  • Utilisation inadéquate du domaine fréquentiel: Des méthodes comme HFA se concentrent uniquement sur les composantes haute fréquence, ignorant le fait que les ViTs dépendent davantage des informations de fréquence moyenne-basse

4. Motivation de la Recherche

Les auteurs observent que différents ViTs entraînés sur le même ensemble de données, bien qu'ayant des différences architecturales, présentent une communalité dans leurs modèles de décision, en particulier dans leur dépendance aux informations de fréquence moyenne-basse. Par conséquent, en améliorant les caractéristiques communes et en supprimant les caractéristiques individuelles, il est possible de générer des exemples adversariaux plus transférables.

Contributions Principales

  1. Proposition d'une stratégie d'optimisation orientée vers la communalité: Pour la première fois, considère la relation entre les gradients et les caractéristiques du modèle, allant au-delà des méthodes traditionnelles d'ajustement de gradient uniforme
  2. Conception du cadre COGO: Combine deux composants, l'amélioration de la communalité (CE) et la suppression de l'individualité (IS), utilisant l'amélioration de l'énergie dans le domaine fréquentiel et des mécanismes de seuil adaptatif
  3. Amélioration significative des performances: Surpasse considérablement les méthodes de pointe existantes dans plusieurs tests de référence, y compris GNS-HFA et ATT
  4. Vérification expérimentale complète: Obtient d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert entre architectures (ViT vers CNN)

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une image d'entrée propre XcleanRNX_{clean} \in \mathbb{R}^N, l'objectif est de générer une perturbation adversariale δ\delta telle que Xadv=Xclean+δX_{adv} = X_{clean} + \delta puisse attaquer avec succès le modèle de substitution et présente une bonne transférabilité en boîte noire vers un modèle cible inconnu.

Architecture du Modèle

La stratégie COGO comprend deux composants principaux:

1. Amélioration de la Communalité (Commonality Enhancement, CE)

Le module CE améliore les composantes de fréquence moyenne-basse lors de la propagation avant:

Étape 1: Ajouter la perturbation actuelle et le bruit gaussien

X = X_clean + δ
X_DCT = DCT(X + ε), où ε ~ N(0, I_N)

Étape 2: Calculer la distribution d'énergie et améliorer

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Étape 3: Transformer vers le domaine spatial et appliquer un masque spatial

X_IDCT = IDCT(X'_DCT · M)

où γ contrôle l'intensité de l'amélioration et M est un masque spatial hérité de HFA.

2. Suppression de l'Individualité (Individuality Suppression, IS)

Le module IS supprime les gradients spécifiques au modèle de substitution lors de la rétropropagation:

Suppression des caractéristiques redondantes:

  • Utiliser l'information mutuelle (MI) et le coefficient de corrélation de Pearson (PC) pour quantifier la redondance entre canaux
  • Seuil adaptatif: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • Calcul du poids: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • Ajustement du gradient: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

Suppression des connaissances supplémentaires:

  • Pour les tokens supplémentaires tels que les tokens de distillation dans les ViTs efficaces en données
  • Facteur d'échelle: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • Ajustement du gradient: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

Points d'Innovation Technique

  1. Utilisation de la communalité dans le domaine fréquentiel: Contrairement à HFA qui se concentre uniquement sur les hautes fréquences, CE améliore spécifiquement les composantes de fréquence moyenne-basse sur lesquelles les ViTs dépendent
  2. Suppression adaptative des gradients: IS utilise un seuil adaptatif plutôt qu'un seuil fixe, identifiant et supprimant mieux les gradients spécifiques au modèle
  3. Stratégie d'optimisation double: CE et IS optimisent de manière synergique à partir des directions avant et arrière, formant un effet complémentaire

Configuration Expérimentale

Ensemble de Données

  • Ensemble de validation ILSVRC 2012: Échantillonnage aléatoire de 1000 images, configuration standard pour la recherche sur les attaques de transfert
  • Suivi du protocole expérimental des travaux antérieurs tels que TGR

Métriques d'Évaluation

  • Taux de Réussite d'Attaque (ASR): ASR=Nombre d’attaques reˊussiesNombre total d’attaques×100%\text{ASR} = \frac{\text{Nombre d'attaques réussies}}{\text{Nombre total d'attaques}} \times 100\%
  • Mesure la proportion d'exemples adversariaux qui causent une mauvaise classification du modèle cible

Méthodes de Comparaison

  • Lignes de base principales: TGR (spécifiquement conçu pour les ViTs)
  • Méthodes récentes: GNS-HFA, ATT
  • Méthodes classiques: MIM, SINI-FGSM, PNA, SSA

Modèles Expérimentaux

  • Modèles de substitution: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • Modèles cibles ViT: TNT-S, ConViT-B, etc.
  • Modèles cibles CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • Modèles défendus: Modèles d'ensemble entraînés de manière adversariale

Détails d'Implémentation

  • Nombre d'itérations d'attaque: 10
  • Perturbation maximale \ell_\infty: ϵ=8\epsilon = 8 (échelle 0-255)
  • Hyperparamètres clés: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

Résultats Expérimentaux

Résultats Principaux

Performance de transfert entre ViTs:

  • Amélioration moyenne de 7,2% par rapport à GNS-HFA
  • Amélioration moyenne de 10,1% par rapport à ATT
  • Performances optimales sur toutes les architectures ViT testées

Performance de transfert entre architectures (ViT → CNN):

  • Amélioration moyenne de 2,3% par rapport à GNS-HFA
  • Amélioration moyenne de 10,5% par rapport à ATT
  • Maintien d'un bon effet d'attaque sur les modèles défendus

Exemples de valeurs numériques (avec Visformer-S comme modèle de substitution):

MéthodeViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49.1%54.1%81.3%71.6%71.3%
COGO55.2%64.9%85.5%71.8%72.4%

Études d'Ablation

Contribution des composants CE et IS:

CEISViTsCNNsCNNs-adv
--46.64%30.45%9.80%
-72.56% (+25.92%)56.18% (+25.73%)32.15% (+22.35%)
-62.38% (+15.74%)45.85% (+15.40%)22.77% (+12.97%)
77.97% (+31.33%)63.73% (+33.28%)36.75% (+26.95%)

Découvertes clés:

  • Le composant CE contribue davantage, prouvant l'importance de l'amélioration dans le domaine fréquentiel
  • Le composant IS fournit un complément efficace, la combinaison des deux produit les meilleurs résultats
  • Améliorations significatives sur tous les types de modèles

Sensibilité aux hyperparamètres:

  • Coefficient d'amélioration γ = 1 produit les meilleurs résultats
  • Nombre d'itérations N = 10 atteint l'équilibre des performances
  • La quantité de paires de canaux a peu d'impact sur les résultats, prouvant la robustesse de la méthode

Analyse des Gradients

L'analyse par la métrique de dispersion des gradients révèle:

  • COGO produit une distribution de gradients plus uniforme et diversifiée
  • Réduction de la dépendance aux caractéristiques spécifiques du modèle de substitution
  • La complémentarité de CE et IS est évidente à différentes couches

Travaux Connexes

Recherche sur les Attaques Adversariales contre les ViTs

  • Méthodes précoces: Principalement conçues pour les CNN, telles que BIM, PGD, MIM
  • Méthodes de transformation d'entrée: DIM, TIM améliorent la transférabilité par transformation d'entrée
  • Méthodes dans le domaine fréquentiel: SSA explore les vulnérabilités du domaine fréquentiel, mais n'est pas optimisée pour les ViTs

Méthodes Spécifiques aux ViTs

  • TGR: Réduit la variance en supprimant les gradients extrêmes
  • GNS-HFA: Normalise les gradients selon une distribution gaussienne et améliore les hautes fréquences
  • Contribution de cet article: Première considération de la relation entre les gradients et les caractéristiques du modèle, proposant une optimisation orientée vers la communalité

Analyse de l'Architecture ViT

Les auteurs classent les variantes ViT en deux catégories:

  1. Type efficace en calcul: Visformer, PiT, etc., simplifiant les opérations d'attention
  2. Type efficace en données: DeiT, CaiT, etc., améliorant la capacité de représentation par distillation de connaissances, etc.

Conclusion et Discussion

Conclusions Principales

  1. L'optimisation orientée vers la communalité est efficace: En améliorant la communalité entre modèles et en supprimant l'individualité, la transférabilité des exemples adversariaux est significativement améliorée
  2. La stratégie dans le domaine fréquentiel est importante: L'amélioration des fréquences moyenne-basse adaptée aux caractéristiques des ViTs est plus efficace que les méthodes traditionnelles de haute fréquence
  3. La suppression adaptative est supérieure: La suppression adaptative basée sur la corrélation gradient-caractéristique surpasse l'ajustement uniforme
  4. Généralisation entre architectures: La méthode montre d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert de ViT vers CNN

Limitations

  1. Surcharge de calcul: Les transformations dans le domaine fréquentiel et l'analyse des gradients augmentent le coût de calcul
  2. Sensibilité aux hyperparamètres: Bien que relativement robuste, la méthode nécessite toujours un ajustement approprié des paramètres
  3. Analyse théorique: Manque d'analyse théorique approfondie sur les raisons pour lesquelles l'amélioration des fréquences moyenne-basse est plus efficace
  4. Défense adversariale: Exploration insuffisante de la robustesse contre les méthodes de défense ciblées

Directions Futures

  1. Perfectionnement théorique: Analyse approfondie des fondations théoriques de la communalité dans le domaine fréquentiel
  2. Optimisation de l'efficacité: Réduction de la surcharge de calcul, amélioration de la praticité
  3. Recherche en défense: Exploration des mécanismes de défense contre COGO
  4. Extension d'application: Extension de la méthode à d'autres variantes de Vision Transformer

Évaluation Approfondie

Avantages

  1. Innovation forte: Première analyse de la transférabilité des exemples adversariaux sous l'angle communalité-individualité, approche novatrice
  2. Méthode systématique: Les deux composants CE et IS sont bien conçus, formant un cadre d'optimisation complet
  3. Expérimentation complète: Couvre plusieurs architectures de modèles et scénarios d'attaque, résultats convaincants
  4. Performance significative: Amélioration évidente par rapport aux méthodes existantes, atteignant un nouveau niveau SOTA
  5. Analyse approfondie: Fournit des analyses approfondies telles que l'analyse de la dispersion des gradients

Insuffisances

  1. Fondations théoriques: L'explication théorique de la communalité des fréquences moyenne-basse n'est pas suffisamment approfondie
  2. Efficacité de calcul: Les transformations dans le domaine fréquentiel et l'analyse des gradients augmentent la complexité de calcul
  3. Portée d'application: Principalement ciblée sur les ViTs, l'applicabilité à d'autres architectures est limitée
  4. Considération de défense: Considération insuffisante de l'impact des défenses adaptatives

Impact

  1. Valeur académique: Fournit une nouvelle perspective d'optimisation pour la recherche sur les attaques adversariales
  2. Valeur pratique: Peut être utilisée pour évaluer la robustesse des ViTs
  3. Reproductibilité: Fournit des détails d'implémentation détaillés et des paramètres de configuration
  4. Valeur inspirante: Le cadre d'analyse communalité-individualité peut inspirer d'autres recherches connexes

Scénarios d'Application

  1. Évaluation de la robustesse des modèles: Évaluation de la sécurité des ViTs sous les attaques adversariales
  2. Entraînement adversarial: Génération d'échantillons d'entraînement plus difficiles
  3. Recherche en sécurité: Compréhension et amélioration de la sécurité des modèles d'apprentissage profond
  4. Attaques entre modèles: Attaques en boîte noire lorsque les informations du modèle cible ne sont pas disponibles

Références

L'article cite les travaux importants du domaine connexe, y compris:

  • Travaux fondamentaux sur Vision Transformer Dosovitskiy et al., 2020
  • Méthodes classiques d'attaque adversariale Goodfellow, 2014; Madry et al., 2017
  • Méthodes d'attaque spécifiques aux ViTs Zhang et al., 2023; Zhu et al., 2024
  • Recherche sur les attaques dans le domaine fréquentiel Long et al., 2022

Évaluation Globale: Ceci est un article de recherche de haute qualité sur les attaques adversariales, se distinguant par son innovation méthodologique, sa conception expérimentale et son analyse des résultats. La méthode COGO, par sa stratégie double d'amélioration de la communalité et de suppression de l'individualité, fournit une solution efficace pour améliorer la transférabilité des exemples adversariaux et possède une valeur importante pour la recherche en sécurité des ViTs.