2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.

Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.

academic

Amélioration de la Transférabilité Adversariale via l'Optimisation des Gradients Orientée vers la Communalité

Informations Fondamentales

ID de l'article: 2506.06992
Titre: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Auteurs: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
Institutions affiliées: Université Tongji, Université de Floride
Classification: cs.CV (Vision par Ordinateur)
Date de publication: 12 octobre 2025 (prépublication arXiv v2)
Lien de l'article: https://arxiv.org/abs/2506.06992

Résumé

L'exploration d'exemples adversariaux efficaces et transférables est essentielle pour comprendre les caractéristiques et les mécanismes des Vision Transformers (ViTs). Cependant, les exemples adversariaux générés par des modèles de substitution présentent souvent une transférabilité faible dans les paramètres de boîte noire en raison du surapprentissage. Les méthodes existantes améliorent la transférabilité en diversifiant les entrées perturbées ou en appliquant une régularisation de gradient uniforme au sein des modèles de substitution, mais ne tirent pas pleinement parti des caractéristiques partagées et uniques des modèles de substitution entraînés sur la même tâche, ce qui entraîne des performances de transfert sous-optimales. Par conséquent, améliorer les perturbations qui capturent les informations partagées des modèles de substitution tout en supprimant les perturbations liées aux caractéristiques individuelles offre une voie efficace pour améliorer la transférabilité. En conséquence, nous proposons une stratégie d'optimisation des gradients orientée vers la communalité (COGO), comprenant deux composants: l'amélioration de la communalité (CE) et la suppression de l'individualité (IS). CE perturbe les régions basse fréquence, exploitant le fait que les ViTs entraînés sur le même ensemble de données tendent à dépendre davantage des informations de fréquence moyenne-basse pour la classification. IS emploie un seuil adaptatif pour évaluer la corrélation entre les gradients rétropropagés et l'individualité du modèle, attribuant en conséquence des poids aux gradients. Des expériences extensives démontrent que COGO améliore significativement le taux de réussite du transfert des attaques adversariales, surpassant les méthodes de pointe actuelles.

Contexte et Motivation de la Recherche

1. Problème de Recherche

Cet article aborde principalement le problème de transférabilité dans les attaques adversariales contre les Vision Transformers (ViTs). Plus précisément, lors de l'utilisation d'un modèle de substitution pour générer des exemples adversariaux afin d'attaquer un modèle cible inconnu, les exemples adversariaux générés ne peuvent souvent pas se transférer efficacement vers le modèle cible, entraînant l'échec de l'attaque.

2. Importance du Problème

Applications critiques pour la sécurité: La fiabilité des ViTs dans les applications critiques pour la sécurité est gravement menacée par les attaques adversariales
Réalisme des attaques en boîte noire: Dans les scénarios pratiques, les attaquants ne peuvent généralement pas accéder à la structure interne du modèle cible, ce qui rend la transférabilité cruciale
Évaluation de la robustesse des modèles: Comprendre la transférabilité des exemples adversariaux aide à évaluer et à améliorer la robustesse des modèles

3. Limitations des Méthodes Existantes

Surapprentissage: Les exemples adversariaux générés par les méthodes existantes contiennent trop d'informations spécifiques au modèle de substitution, ce qui entraîne une mauvaise capacité de généralisation
Traitement uniforme: Des méthodes telles que TGR et GNS-HFA n'ajustent les gradients que sur la base de caractéristiques statistiques, sans tenir compte de la corrélation entre les gradients et les caractéristiques spécifiques du modèle
Utilisation inadéquate du domaine fréquentiel: Des méthodes comme HFA se concentrent uniquement sur les composantes haute fréquence, ignorant le fait que les ViTs dépendent davantage des informations de fréquence moyenne-basse

4. Motivation de la Recherche

Les auteurs observent que différents ViTs entraînés sur le même ensemble de données, bien qu'ayant des différences architecturales, présentent une communalité dans leurs modèles de décision, en particulier dans leur dépendance aux informations de fréquence moyenne-basse. Par conséquent, en améliorant les caractéristiques communes et en supprimant les caractéristiques individuelles, il est possible de générer des exemples adversariaux plus transférables.

Contributions Principales

Proposition d'une stratégie d'optimisation orientée vers la communalité: Pour la première fois, considère la relation entre les gradients et les caractéristiques du modèle, allant au-delà des méthodes traditionnelles d'ajustement de gradient uniforme
Conception du cadre COGO: Combine deux composants, l'amélioration de la communalité (CE) et la suppression de l'individualité (IS), utilisant l'amélioration de l'énergie dans le domaine fréquentiel et des mécanismes de seuil adaptatif
Amélioration significative des performances: Surpasse considérablement les méthodes de pointe existantes dans plusieurs tests de référence, y compris GNS-HFA et ATT
Vérification expérimentale complète: Obtient d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert entre architectures (ViT vers CNN)

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une image d'entrée propre $X_{clean} \in \mathbb{R}^N$ , l'objectif est de générer une perturbation adversariale $\delta$ telle que $X_{adv} = X_{clean} + \delta$ puisse attaquer avec succès le modèle de substitution et présente une bonne transférabilité en boîte noire vers un modèle cible inconnu.

Architecture du Modèle

La stratégie COGO comprend deux composants principaux:

1. Amélioration de la Communalité (Commonality Enhancement, CE)

Le module CE améliore les composantes de fréquence moyenne-basse lors de la propagation avant:

Étape 1: Ajouter la perturbation actuelle et le bruit gaussien

X = X_clean + δ
X_DCT = DCT(X + ε), où ε ~ N(0, I_N)

Étape 2: Calculer la distribution d'énergie et améliorer

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Étape 3: Transformer vers le domaine spatial et appliquer un masque spatial

X_IDCT = IDCT(X'_DCT · M)

où γ contrôle l'intensité de l'amélioration et M est un masque spatial hérité de HFA.

2. Suppression de l'Individualité (Individuality Suppression, IS)

Le module IS supprime les gradients spécifiques au modèle de substitution lors de la rétropropagation:

Suppression des caractéristiques redondantes:

Utiliser l'information mutuelle (MI) et le coefficient de corrélation de Pearson (PC) pour quantifier la redondance entre canaux
Seuil adaptatif: $\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))$
Calcul du poids: $w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))$
Ajustement du gradient: $\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i$

Suppression des connaissances supplémentaires:

Pour les tokens supplémentaires tels que les tokens de distillation dans les ViTs efficaces en données
Facteur d'échelle: $c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})$
Ajustement du gradient: $\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}$

Points d'Innovation Technique

Utilisation de la communalité dans le domaine fréquentiel: Contrairement à HFA qui se concentre uniquement sur les hautes fréquences, CE améliore spécifiquement les composantes de fréquence moyenne-basse sur lesquelles les ViTs dépendent
Suppression adaptative des gradients: IS utilise un seuil adaptatif plutôt qu'un seuil fixe, identifiant et supprimant mieux les gradients spécifiques au modèle
Stratégie d'optimisation double: CE et IS optimisent de manière synergique à partir des directions avant et arrière, formant un effet complémentaire

Configuration Expérimentale

Ensemble de Données

Ensemble de validation ILSVRC 2012: Échantillonnage aléatoire de 1000 images, configuration standard pour la recherche sur les attaques de transfert
Suivi du protocole expérimental des travaux antérieurs tels que TGR

Métriques d'Évaluation

Taux de Réussite d'Attaque (ASR): $\text{ASR} = \frac{\text{Nombre d'attaques réussies}}{\text{Nombre total d'attaques}} \times 100\%$
Mesure la proportion d'exemples adversariaux qui causent une mauvaise classification du modèle cible

Méthodes de Comparaison

Lignes de base principales: TGR (spécifiquement conçu pour les ViTs)
Méthodes récentes: GNS-HFA, ATT
Méthodes classiques: MIM, SINI-FGSM, PNA, SSA

Modèles Expérimentaux

Modèles de substitution: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
Modèles cibles ViT: TNT-S, ConViT-B, etc.
Modèles cibles CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
Modèles défendus: Modèles d'ensemble entraînés de manière adversariale

Détails d'Implémentation

Nombre d'itérations d'attaque: 10
Perturbation maximale $\ell_\infty$ : $\epsilon = 8$ (échelle 0-255)
Hyperparamètres clés: $\gamma = 1$ , $\alpha = 0.1$ , $\beta_{MI} = 0.5$ , $\beta_{corr} = 0.7$

Résultats Expérimentaux

Résultats Principaux

Performance de transfert entre ViTs:

Amélioration moyenne de 7,2% par rapport à GNS-HFA
Amélioration moyenne de 10,1% par rapport à ATT
Performances optimales sur toutes les architectures ViT testées

Performance de transfert entre architectures (ViT → CNN):

Amélioration moyenne de 2,3% par rapport à GNS-HFA
Amélioration moyenne de 10,5% par rapport à ATT
Maintien d'un bon effet d'attaque sur les modèles défendus

Exemples de valeurs numériques (avec Visformer-S comme modèle de substitution):

Méthode	ViT-B/16	DeiT-B	TNT-S	Inc-v3	Inc-v4
GNS-HFA	49.1%	54.1%	81.3%	71.6%	71.3%
COGO	55.2%	64.9%	85.5%	71.8%	72.4%

Études d'Ablation

Contribution des composants CE et IS:

CE	IS	ViTs	CNNs	CNNs-adv
-	-	46.64%	30.45%	9.80%
✓	-	72.56% (+25.92%)	56.18% (+25.73%)	32.15% (+22.35%)
-	✓	62.38% (+15.74%)	45.85% (+15.40%)	22.77% (+12.97%)
✓	✓	77.97% (+31.33%)	63.73% (+33.28%)	36.75% (+26.95%)

Découvertes clés:

Le composant CE contribue davantage, prouvant l'importance de l'amélioration dans le domaine fréquentiel
Le composant IS fournit un complément efficace, la combinaison des deux produit les meilleurs résultats
Améliorations significatives sur tous les types de modèles

Sensibilité aux hyperparamètres:

Coefficient d'amélioration γ = 1 produit les meilleurs résultats
Nombre d'itérations N = 10 atteint l'équilibre des performances
La quantité de paires de canaux a peu d'impact sur les résultats, prouvant la robustesse de la méthode

Analyse des Gradients

L'analyse par la métrique de dispersion des gradients révèle:

COGO produit une distribution de gradients plus uniforme et diversifiée
Réduction de la dépendance aux caractéristiques spécifiques du modèle de substitution
La complémentarité de CE et IS est évidente à différentes couches

Travaux Connexes

Recherche sur les Attaques Adversariales contre les ViTs

Méthodes précoces: Principalement conçues pour les CNN, telles que BIM, PGD, MIM
Méthodes de transformation d'entrée: DIM, TIM améliorent la transférabilité par transformation d'entrée
Méthodes dans le domaine fréquentiel: SSA explore les vulnérabilités du domaine fréquentiel, mais n'est pas optimisée pour les ViTs

Méthodes Spécifiques aux ViTs

TGR: Réduit la variance en supprimant les gradients extrêmes
GNS-HFA: Normalise les gradients selon une distribution gaussienne et améliore les hautes fréquences
Contribution de cet article: Première considération de la relation entre les gradients et les caractéristiques du modèle, proposant une optimisation orientée vers la communalité

Analyse de l'Architecture ViT

Les auteurs classent les variantes ViT en deux catégories:

Type efficace en calcul: Visformer, PiT, etc., simplifiant les opérations d'attention
Type efficace en données: DeiT, CaiT, etc., améliorant la capacité de représentation par distillation de connaissances, etc.

Conclusion et Discussion

Conclusions Principales

L'optimisation orientée vers la communalité est efficace: En améliorant la communalité entre modèles et en supprimant l'individualité, la transférabilité des exemples adversariaux est significativement améliorée
La stratégie dans le domaine fréquentiel est importante: L'amélioration des fréquences moyenne-basse adaptée aux caractéristiques des ViTs est plus efficace que les méthodes traditionnelles de haute fréquence
La suppression adaptative est supérieure: La suppression adaptative basée sur la corrélation gradient-caractéristique surpasse l'ajustement uniforme
Généralisation entre architectures: La méthode montre d'excellentes performances à la fois dans le transfert entre ViTs et dans le transfert de ViT vers CNN

Limitations

Surcharge de calcul: Les transformations dans le domaine fréquentiel et l'analyse des gradients augmentent le coût de calcul
Sensibilité aux hyperparamètres: Bien que relativement robuste, la méthode nécessite toujours un ajustement approprié des paramètres
Analyse théorique: Manque d'analyse théorique approfondie sur les raisons pour lesquelles l'amélioration des fréquences moyenne-basse est plus efficace
Défense adversariale: Exploration insuffisante de la robustesse contre les méthodes de défense ciblées

Directions Futures

Perfectionnement théorique: Analyse approfondie des fondations théoriques de la communalité dans le domaine fréquentiel
Optimisation de l'efficacité: Réduction de la surcharge de calcul, amélioration de la praticité
Recherche en défense: Exploration des mécanismes de défense contre COGO
Extension d'application: Extension de la méthode à d'autres variantes de Vision Transformer

Évaluation Approfondie

Avantages

Innovation forte: Première analyse de la transférabilité des exemples adversariaux sous l'angle communalité-individualité, approche novatrice
Méthode systématique: Les deux composants CE et IS sont bien conçus, formant un cadre d'optimisation complet
Expérimentation complète: Couvre plusieurs architectures de modèles et scénarios d'attaque, résultats convaincants
Performance significative: Amélioration évidente par rapport aux méthodes existantes, atteignant un nouveau niveau SOTA
Analyse approfondie: Fournit des analyses approfondies telles que l'analyse de la dispersion des gradients

Insuffisances

Fondations théoriques: L'explication théorique de la communalité des fréquences moyenne-basse n'est pas suffisamment approfondie
Efficacité de calcul: Les transformations dans le domaine fréquentiel et l'analyse des gradients augmentent la complexité de calcul
Portée d'application: Principalement ciblée sur les ViTs, l'applicabilité à d'autres architectures est limitée
Considération de défense: Considération insuffisante de l'impact des défenses adaptatives

Impact

Valeur académique: Fournit une nouvelle perspective d'optimisation pour la recherche sur les attaques adversariales
Valeur pratique: Peut être utilisée pour évaluer la robustesse des ViTs
Reproductibilité: Fournit des détails d'implémentation détaillés et des paramètres de configuration
Valeur inspirante: Le cadre d'analyse communalité-individualité peut inspirer d'autres recherches connexes

Scénarios d'Application

Évaluation de la robustesse des modèles: Évaluation de la sécurité des ViTs sous les attaques adversariales
Entraînement adversarial: Génération d'échantillons d'entraînement plus difficiles
Recherche en sécurité: Compréhension et amélioration de la sécurité des modèles d'apprentissage profond
Attaques entre modèles: Attaques en boîte noire lorsque les informations du modèle cible ne sont pas disponibles

Références

L'article cite les travaux importants du domaine connexe, y compris:

Travaux fondamentaux sur Vision Transformer Dosovitskiy et al., 2020
Méthodes classiques d'attaque adversariale Goodfellow, 2014; Madry et al., 2017
Méthodes d'attaque spécifiques aux ViTs Zhang et al., 2023; Zhu et al., 2024
Recherche sur les attaques dans le domaine fréquentiel Long et al., 2022

Évaluation Globale: Ceci est un article de recherche de haute qualité sur les attaques adversariales, se distinguant par son innovation méthodologique, sa conception expérimentale et son analyse des résultats. La méthode COGO, par sa stratégie double d'amélioration de la communalité et de suppression de l'individualité, fournit une solution efficace pour améliorer la transférabilité des exemples adversariaux et possède une valeur importante pour la recherche en sécurité des ViTs.