2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.

Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.

academic

Mejora de la Transferibilidad Adversarial mediante Optimización de Gradientes Orientada a la Comunalidad

Información Básica

ID del Artículo: 2506.06992
Título: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Autores: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
Instituciones Afiliadas: Universidad Tongji, Universidad de Florida
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 12 de octubre de 2025 (preimpresión arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2506.06992

Resumen

La exploración de muestras adversariales efectivas y transferibles es crucial para comprender las características y mecanismos de los Vision Transformers (ViTs). Sin embargo, las muestras adversariales generadas por modelos sustitutos frecuentemente presentan una transferibilidad débil en configuraciones de caja negra debido al sobreajuste. Los métodos existentes mejoran la transferibilidad mediante la diversificación de entradas perturbadas o la aplicación de regularización de gradientes uniforme dentro de modelos sustitutos, pero no aprovechan suficientemente las características compartidas y únicas de los modelos sustitutos entrenados en la misma tarea, lo que resulta en un rendimiento de transferencia subóptimo. Por lo tanto, mejorar las perturbaciones que contienen información compartida entre modelos e inhibir las perturbaciones relacionadas con características individuales proporciona una vía efectiva para mejorar la transferibilidad. En consecuencia, proponemos una estrategia de optimización de gradientes orientada a la comunalidad (COGO), que comprende dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS). CE perturba regiones de baja frecuencia, aprovechando el hecho de que los ViTs entrenados en el mismo conjunto de datos tienden a depender más de información de frecuencia media-baja para la clasificación. IS emplea un umbral adaptativo para evaluar la correlación entre gradientes de retropropagación y características individuales del modelo, asignando pesos a los gradientes en consecuencia. Experimentos extensos demuestran que COGO mejora significativamente la tasa de éxito de transferencia de ataques adversariales, superando los métodos de vanguardia actuales.

Contexto de Investigación y Motivación

1. Problema de Investigación

Este artículo aborda principalmente el problema de transferibilidad en ataques adversariales contra Vision Transformers (ViTs). Específicamente, cuando se utilizan modelos sustitutos para generar muestras adversariales que ataquen modelos objetivo desconocidos, las muestras adversariales generadas frecuentemente no se transfieren efectivamente al modelo objetivo, resultando en ataques fallidos.

2. Importancia del Problema

Aplicaciones Críticas de Seguridad: La confiabilidad de los ViTs en aplicaciones críticas de seguridad se ve amenazada por ataques adversariales
Realismo de Ataques de Caja Negra: En escenarios prácticos, los atacantes típicamente no pueden acceder a la estructura interna del modelo objetivo, haciendo que la transferibilidad sea crítica
Evaluación de Robustez del Modelo: Comprender la transferibilidad de muestras adversariales ayuda a evaluar y mejorar la robustez del modelo

3. Limitaciones de Métodos Existentes

Sobreajuste: Las muestras adversariales generadas por métodos existentes contienen demasiada información específica del modelo sustituto, resultando en pobre generalización
Tratamiento Uniforme: Métodos como TGR y GNS-HFA solo ajustan gradientes basándose en características estadísticas, sin considerar la correlación entre gradientes y características específicas del modelo
Utilización Inadecuada del Dominio de Frecuencias: Métodos como HFA solo se enfocan en componentes de alta frecuencia, ignorando que los ViTs dependen más de información de frecuencia media-baja

4. Motivación de la Investigación

Los autores observan que diferentes ViTs entrenados en el mismo conjunto de datos, aunque tienen diferencias arquitectónicas, comparten patrones de decisión comunes, particularmente en su dependencia de información de frecuencia media-baja. Por lo tanto, mediante la mejora de características comunes e inhibición de características individuales, es posible generar muestras adversariales más transferibles.

Contribuciones Principales

Propuesta de Estrategia de Optimización Orientada a la Comunalidad: Por primera vez, considera la relación entre gradientes y características del modelo, yendo más allá de métodos tradicionales de ajuste de gradientes uniforme
Diseño del Marco COGO: Combina dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS), utilizando mejora de energía en el dominio de frecuencias y mecanismos de umbral adaptativo
Mejora Significativa de Rendimiento: Supera significativamente los métodos de vanguardia existentes en múltiples evaluaciones comparativas, incluyendo GNS-HFA y ATT
Verificación Experimental Integral: Logra un rendimiento excepcional tanto en transferencia entre ViTs como en transferencia entre arquitecturas de ViT a CNN

Explicación Detallada del Método

Definición de Tarea

Dado un imagen de entrada limpia $X_{clean} \in \mathbb{R}^N$ , el objetivo es generar una perturbación adversarial $\delta$ , tal que $X_{adv} = X_{clean} + \delta$ pueda atacar exitosamente el modelo sustituto y tenga buena transferibilidad de caja negra a modelos objetivo desconocidos.

Arquitectura del Modelo

La estrategia COGO comprende dos componentes principales:

1. Mejora de Comunalidad (Commonality Enhancement, CE)

El módulo CE mejora componentes de frecuencia media-baja durante la propagación hacia adelante:

Paso 1: Agregar perturbación actual y ruido gaussiano

X = X_clean + δ
X_DCT = DCT(X + ε), donde ε ~ N(0, I_N)

Paso 2: Calcular distribución de energía y mejorar

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Paso 3: Transformar de vuelta al dominio espacial y aplicar máscara espacial

X_IDCT = IDCT(X'_DCT · M)

donde γ controla la intensidad de mejora y M es una máscara espacial heredada de HFA.

2. Inhibición de Individualidad (Individuality Suppression, IS)

El módulo IS inhibe gradientes específicos del modelo sustituto durante la retropropagación:

Inhibición de Características Redundantes:

Utilizar Información Mutua (MI) y Coeficiente de Correlación de Pearson (PC) para cuantificar redundancia entre canales
Umbral adaptativo: $\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))$
Cálculo de pesos: $w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))$
Ajuste de gradientes: $\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i$

Inhibición de Conocimiento Adicional:

Para tokens adicionales como tokens de destilación en ViTs eficientes en datos
Factor de escala: $c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})$
Ajuste de gradientes: $\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}$

Puntos de Innovación Técnica

Utilización de Comunalidad en Dominio de Frecuencias: A diferencia de HFA que solo se enfoca en alta frecuencia, CE mejora específicamente componentes de frecuencia media-baja en los que los ViTs dependen
Inhibición de Gradientes Adaptativa: IS utiliza umbrales adaptativos en lugar de umbrales fijos, identificando y suprimiendo mejor los gradientes específicos del modelo
Estrategia de Optimización Dual: CE e IS optimizan conjuntamente desde direcciones hacia adelante y hacia atrás, formando efectos complementarios

Configuración Experimental

Conjunto de Datos

Conjunto de Validación ILSVRC 2012: Muestreo aleatorio de 1000 imágenes, configuración estándar en investigación de ataques de transferencia
Sigue protocolos experimentales de trabajos previos como TGR

Métricas de Evaluación

Tasa de Éxito de Ataque (ASR): $\text{ASR} = \frac{\text{Número de ataques exitosos}}{\text{Número total de ataques}} \times 100\%$
Mide la proporción de muestras adversariales que causan clasificación errónea en el modelo objetivo

Métodos de Comparación

Líneas Base Principales: TGR (diseñado específicamente para ViTs)
Métodos Recientes: GNS-HFA, ATT
Métodos Clásicos: MIM, SINI-FGSM, PNA, SSA

Modelos Experimentales

Modelos Sustitutos: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
Modelos Objetivo ViT: TNT-S, ConViT-B, etc.
Modelos Objetivo CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
Modelos con Defensa: Modelos de conjunto entrenados adversarialmente

Detalles de Implementación

Número de iteraciones de ataque: 10
Perturbación máxima $\ell_\infty$ : $\epsilon = 8$ (escala 0-255)
Hiperparámetros clave: $\gamma = 1$ , $\alpha = 0.1$ , $\beta_{MI} = 0.5$ , $\beta_{corr} = 0.7$

Resultados Experimentales

Resultados Principales

Rendimiento de Transferencia entre ViTs:

Mejora promedio de 7.2% comparado con GNS-HFA
Mejora promedio de 10.1% comparado con ATT
Logra el mejor rendimiento en todas las arquitecturas ViT probadas

Rendimiento de Transferencia entre Arquitecturas (ViT → CNN):

Mejora promedio de 2.3% comparado con GNS-HFA
Mejora promedio de 10.5% comparado con ATT
Mantiene buen efecto de ataque incluso en modelos con defensa

Ejemplo de Valores Numéricos (con Visformer-S como modelo sustituto):

Método	ViT-B/16	DeiT-B	TNT-S	Inc-v3	Inc-v4
GNS-HFA	49.1%	54.1%	81.3%	71.6%	71.3%
COGO	55.2%	64.9%	85.5%	71.8%	72.4%

Experimentos de Ablación

Contribución de Componentes CE e IS:

CE	IS	ViTs	CNNs	CNNs-adv
-	-	46.64%	30.45%	9.80%
✓	-	72.56% (+25.92%)	56.18% (+25.73%)	32.15% (+22.35%)
-	✓	62.38% (+15.74%)	45.85% (+15.40%)	22.77% (+12.97%)
✓	✓	77.97% (+31.33%)	63.73% (+33.28%)	36.75% (+26.95%)

Hallazgos Clave:

El componente CE contribuye más, demostrando la importancia de la mejora en el dominio de frecuencias
El componente IS proporciona un complemento efectivo, con el mejor efecto cuando se combinan ambos
Se observan mejoras significativas en todos los tipos de modelos

Sensibilidad de Hiperparámetros:

El coeficiente de mejora γ = 1 produce el mejor rendimiento
El número de iteraciones N = 10 logra equilibrio de rendimiento
La cantidad de pares de canales tiene poco impacto en resultados, demostrando robustez del método

Análisis de Gradientes

Mediante análisis de métricas de dispersión de gradientes se descubre:

COGO distribuye gradientes de manera más uniforme y diversa
Reduce la dependencia de características específicas del modelo sustituto
La complementariedad de CE e IS es evidente en diferentes capas

Trabajo Relacionado

Investigación de Ataques Adversariales en ViT

Métodos Tempranos: Principalmente diseñados para CNN, como BIM, PGD, MIM
Métodos de Transformación de Entrada: DIM, TIM mejoran transferibilidad mediante transformación de entrada
Métodos en Dominio de Frecuencias: SSA explora vulnerabilidades en dominio de frecuencias, pero no optimizado para ViTs

Métodos Específicos para ViT

TGR: Reduce varianza mediante inhibición de gradientes extremos
GNS-HFA: Regulariza gradientes a distribución gaussiana y mejora alta frecuencia
Contribución de este Artículo: Por primera vez considera la relación entre gradientes y características del modelo, proponiendo optimización orientada a comunalidad

Análisis de Arquitectura ViT

Los autores clasifican variantes de ViT en dos categorías:

Tipo Eficiente en Computación: Visformer, PiT, etc., simplifican operaciones de atención
Tipo Eficiente en Datos: DeiT, CaiT, etc., mejoran capacidad de representación mediante destilación de conocimiento

Conclusiones y Discusión

Conclusiones Principales

Efectividad de Optimización Orientada a Comunalidad: Mediante mejora de comunalidad entre modelos e inhibición de individualidad, se mejora significativamente la transferibilidad de muestras adversariales
Importancia de Estrategia en Dominio de Frecuencias: La mejora de frecuencia media-baja específica para características de ViTs es más efectiva que métodos tradicionales de alta frecuencia
Superioridad de Inhibición Adaptativa: La inhibición adaptativa basada en correlación gradiente-característica supera el ajuste uniforme
Generalización entre Arquitecturas: El método muestra rendimiento excepcional tanto en transferencia entre ViTs como en transferencia de ViT a CNN

Limitaciones

Costo Computacional: Las transformaciones en dominio de frecuencias y análisis de gradientes aumentan el costo computacional
Sensibilidad de Hiperparámetros: Aunque relativamente robusto, aún requiere ajuste apropiado de parámetros
Análisis Teórico: Carece de análisis teórico profundo sobre por qué la mejora de frecuencia media-baja es más efectiva
Defensa Adversarial: No explora suficientemente la robustez contra métodos de defensa específicos

Direcciones Futuras

Perfeccionamiento Teórico: Análisis profundo de la base teórica de comunalidad en dominio de frecuencias
Optimización de Eficiencia: Reducción de costo computacional para mejorar practicidad
Investigación de Defensa: Exploración de mecanismos de defensa contra COGO
Extensión de Aplicaciones: Extensión del método a otras variantes de Vision Transformer

Evaluación Profunda

Fortalezas

Innovación Fuerte: Por primera vez analiza transferibilidad de muestras adversariales desde perspectiva de comunalidad-individualidad, con enfoque novedoso
Método Sistemático: Los dos componentes CE e IS están bien diseñados, formando marco de optimización completo
Experimentación Integral: Cubre múltiples arquitecturas de modelos y escenarios de ataque, con resultados convincentes
Rendimiento Significativo: Mejora clara comparado con métodos existentes, alcanzando nuevo nivel SOTA
Análisis Profundo: Proporciona análisis de dispersión de gradientes e insights profundos

Deficiencias

Fundamento Teórico: Explicación teórica insuficiente de comunalidad de frecuencia media-baja
Eficiencia Computacional: Las transformaciones en dominio de frecuencias y análisis de gradientes aumentan complejidad computacional
Rango de Aplicabilidad: Principalmente enfocado en ViTs, aplicabilidad limitada a otras arquitecturas
Consideración de Defensa: No considera suficientemente el impacto de defensa adaptativa

Impacto

Valor Académico: Proporciona nuevo enfoque de optimización para investigación de ataques adversariales
Valor Práctico: Puede utilizarse para evaluar robustez de ViTs
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
Significado Inspirador: El marco de análisis comunalidad-individualidad puede inspirar investigaciones relacionadas

Escenarios de Aplicación

Evaluación de Robustez del Modelo: Evaluación de seguridad de ViTs bajo ataques adversariales
Entrenamiento Adversarial: Generación de muestras de entrenamiento más desafiantes
Investigación de Seguridad: Comprensión y mejora de seguridad de modelos de aprendizaje profundo
Ataques entre Modelos: Ataques de caja negra en escenarios donde no se puede obtener información del modelo objetivo

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

Trabajos fundamentales de Vision Transformer Dosovitskiy et al., 2020
Métodos clásicos de ataques adversariales Goodfellow, 2014; Madry et al., 2017
Métodos de ataque específicos para ViT Zhang et al., 2023; Zhu et al., 2024
Investigación de ataques en dominio de frecuencias Long et al., 2022

Evaluación General: Este es un artículo de alta calidad en investigación de ataques adversariales, demostrando excelencia en innovación de métodos, diseño experimental y análisis de resultados. El método COGO, mediante estrategia dual de mejora de comunalidad e inhibición de individualidad, proporciona solución efectiva para mejorar transferibilidad de muestras adversariales, con valor importante para investigación de seguridad de ViTs.