2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Mejora de la Transferibilidad Adversarial mediante Optimización de Gradientes Orientada a la Comunalidad

Información Básica

  • ID del Artículo: 2506.06992
  • Título: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • Autores: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • Instituciones Afiliadas: Universidad Tongji, Universidad de Florida
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 12 de octubre de 2025 (preimpresión arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2506.06992

Resumen

La exploración de muestras adversariales efectivas y transferibles es crucial para comprender las características y mecanismos de los Vision Transformers (ViTs). Sin embargo, las muestras adversariales generadas por modelos sustitutos frecuentemente presentan una transferibilidad débil en configuraciones de caja negra debido al sobreajuste. Los métodos existentes mejoran la transferibilidad mediante la diversificación de entradas perturbadas o la aplicación de regularización de gradientes uniforme dentro de modelos sustitutos, pero no aprovechan suficientemente las características compartidas y únicas de los modelos sustitutos entrenados en la misma tarea, lo que resulta en un rendimiento de transferencia subóptimo. Por lo tanto, mejorar las perturbaciones que contienen información compartida entre modelos e inhibir las perturbaciones relacionadas con características individuales proporciona una vía efectiva para mejorar la transferibilidad. En consecuencia, proponemos una estrategia de optimización de gradientes orientada a la comunalidad (COGO), que comprende dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS). CE perturba regiones de baja frecuencia, aprovechando el hecho de que los ViTs entrenados en el mismo conjunto de datos tienden a depender más de información de frecuencia media-baja para la clasificación. IS emplea un umbral adaptativo para evaluar la correlación entre gradientes de retropropagación y características individuales del modelo, asignando pesos a los gradientes en consecuencia. Experimentos extensos demuestran que COGO mejora significativamente la tasa de éxito de transferencia de ataques adversariales, superando los métodos de vanguardia actuales.

Contexto de Investigación y Motivación

1. Problema de Investigación

Este artículo aborda principalmente el problema de transferibilidad en ataques adversariales contra Vision Transformers (ViTs). Específicamente, cuando se utilizan modelos sustitutos para generar muestras adversariales que ataquen modelos objetivo desconocidos, las muestras adversariales generadas frecuentemente no se transfieren efectivamente al modelo objetivo, resultando en ataques fallidos.

2. Importancia del Problema

  • Aplicaciones Críticas de Seguridad: La confiabilidad de los ViTs en aplicaciones críticas de seguridad se ve amenazada por ataques adversariales
  • Realismo de Ataques de Caja Negra: En escenarios prácticos, los atacantes típicamente no pueden acceder a la estructura interna del modelo objetivo, haciendo que la transferibilidad sea crítica
  • Evaluación de Robustez del Modelo: Comprender la transferibilidad de muestras adversariales ayuda a evaluar y mejorar la robustez del modelo

3. Limitaciones de Métodos Existentes

  • Sobreajuste: Las muestras adversariales generadas por métodos existentes contienen demasiada información específica del modelo sustituto, resultando en pobre generalización
  • Tratamiento Uniforme: Métodos como TGR y GNS-HFA solo ajustan gradientes basándose en características estadísticas, sin considerar la correlación entre gradientes y características específicas del modelo
  • Utilización Inadecuada del Dominio de Frecuencias: Métodos como HFA solo se enfocan en componentes de alta frecuencia, ignorando que los ViTs dependen más de información de frecuencia media-baja

4. Motivación de la Investigación

Los autores observan que diferentes ViTs entrenados en el mismo conjunto de datos, aunque tienen diferencias arquitectónicas, comparten patrones de decisión comunes, particularmente en su dependencia de información de frecuencia media-baja. Por lo tanto, mediante la mejora de características comunes e inhibición de características individuales, es posible generar muestras adversariales más transferibles.

Contribuciones Principales

  1. Propuesta de Estrategia de Optimización Orientada a la Comunalidad: Por primera vez, considera la relación entre gradientes y características del modelo, yendo más allá de métodos tradicionales de ajuste de gradientes uniforme
  2. Diseño del Marco COGO: Combina dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS), utilizando mejora de energía en el dominio de frecuencias y mecanismos de umbral adaptativo
  3. Mejora Significativa de Rendimiento: Supera significativamente los métodos de vanguardia existentes en múltiples evaluaciones comparativas, incluyendo GNS-HFA y ATT
  4. Verificación Experimental Integral: Logra un rendimiento excepcional tanto en transferencia entre ViTs como en transferencia entre arquitecturas de ViT a CNN

Explicación Detallada del Método

Definición de Tarea

Dado un imagen de entrada limpia XcleanRNX_{clean} \in \mathbb{R}^N, el objetivo es generar una perturbación adversarial δ\delta, tal que Xadv=Xclean+δX_{adv} = X_{clean} + \delta pueda atacar exitosamente el modelo sustituto y tenga buena transferibilidad de caja negra a modelos objetivo desconocidos.

Arquitectura del Modelo

La estrategia COGO comprende dos componentes principales:

1. Mejora de Comunalidad (Commonality Enhancement, CE)

El módulo CE mejora componentes de frecuencia media-baja durante la propagación hacia adelante:

Paso 1: Agregar perturbación actual y ruido gaussiano

X = X_clean + δ
X_DCT = DCT(X + ε), donde ε ~ N(0, I_N)

Paso 2: Calcular distribución de energía y mejorar

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Paso 3: Transformar de vuelta al dominio espacial y aplicar máscara espacial

X_IDCT = IDCT(X'_DCT · M)

donde γ controla la intensidad de mejora y M es una máscara espacial heredada de HFA.

2. Inhibición de Individualidad (Individuality Suppression, IS)

El módulo IS inhibe gradientes específicos del modelo sustituto durante la retropropagación:

Inhibición de Características Redundantes:

  • Utilizar Información Mutua (MI) y Coeficiente de Correlación de Pearson (PC) para cuantificar redundancia entre canales
  • Umbral adaptativo: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • Cálculo de pesos: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • Ajuste de gradientes: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

Inhibición de Conocimiento Adicional:

  • Para tokens adicionales como tokens de destilación en ViTs eficientes en datos
  • Factor de escala: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • Ajuste de gradientes: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

Puntos de Innovación Técnica

  1. Utilización de Comunalidad en Dominio de Frecuencias: A diferencia de HFA que solo se enfoca en alta frecuencia, CE mejora específicamente componentes de frecuencia media-baja en los que los ViTs dependen
  2. Inhibición de Gradientes Adaptativa: IS utiliza umbrales adaptativos en lugar de umbrales fijos, identificando y suprimiendo mejor los gradientes específicos del modelo
  3. Estrategia de Optimización Dual: CE e IS optimizan conjuntamente desde direcciones hacia adelante y hacia atrás, formando efectos complementarios

Configuración Experimental

Conjunto de Datos

  • Conjunto de Validación ILSVRC 2012: Muestreo aleatorio de 1000 imágenes, configuración estándar en investigación de ataques de transferencia
  • Sigue protocolos experimentales de trabajos previos como TGR

Métricas de Evaluación

  • Tasa de Éxito de Ataque (ASR): ASR=Nuˊmero de ataques exitososNuˊmero total de ataques×100%\text{ASR} = \frac{\text{Número de ataques exitosos}}{\text{Número total de ataques}} \times 100\%
  • Mide la proporción de muestras adversariales que causan clasificación errónea en el modelo objetivo

Métodos de Comparación

  • Líneas Base Principales: TGR (diseñado específicamente para ViTs)
  • Métodos Recientes: GNS-HFA, ATT
  • Métodos Clásicos: MIM, SINI-FGSM, PNA, SSA

Modelos Experimentales

  • Modelos Sustitutos: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • Modelos Objetivo ViT: TNT-S, ConViT-B, etc.
  • Modelos Objetivo CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • Modelos con Defensa: Modelos de conjunto entrenados adversarialmente

Detalles de Implementación

  • Número de iteraciones de ataque: 10
  • Perturbación máxima \ell_\infty: ϵ=8\epsilon = 8 (escala 0-255)
  • Hiperparámetros clave: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

Resultados Experimentales

Resultados Principales

Rendimiento de Transferencia entre ViTs:

  • Mejora promedio de 7.2% comparado con GNS-HFA
  • Mejora promedio de 10.1% comparado con ATT
  • Logra el mejor rendimiento en todas las arquitecturas ViT probadas

Rendimiento de Transferencia entre Arquitecturas (ViT → CNN):

  • Mejora promedio de 2.3% comparado con GNS-HFA
  • Mejora promedio de 10.5% comparado con ATT
  • Mantiene buen efecto de ataque incluso en modelos con defensa

Ejemplo de Valores Numéricos (con Visformer-S como modelo sustituto):

MétodoViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49.1%54.1%81.3%71.6%71.3%
COGO55.2%64.9%85.5%71.8%72.4%

Experimentos de Ablación

Contribución de Componentes CE e IS:

CEISViTsCNNsCNNs-adv
--46.64%30.45%9.80%
-72.56% (+25.92%)56.18% (+25.73%)32.15% (+22.35%)
-62.38% (+15.74%)45.85% (+15.40%)22.77% (+12.97%)
77.97% (+31.33%)63.73% (+33.28%)36.75% (+26.95%)

Hallazgos Clave:

  • El componente CE contribuye más, demostrando la importancia de la mejora en el dominio de frecuencias
  • El componente IS proporciona un complemento efectivo, con el mejor efecto cuando se combinan ambos
  • Se observan mejoras significativas en todos los tipos de modelos

Sensibilidad de Hiperparámetros:

  • El coeficiente de mejora γ = 1 produce el mejor rendimiento
  • El número de iteraciones N = 10 logra equilibrio de rendimiento
  • La cantidad de pares de canales tiene poco impacto en resultados, demostrando robustez del método

Análisis de Gradientes

Mediante análisis de métricas de dispersión de gradientes se descubre:

  • COGO distribuye gradientes de manera más uniforme y diversa
  • Reduce la dependencia de características específicas del modelo sustituto
  • La complementariedad de CE e IS es evidente en diferentes capas

Trabajo Relacionado

Investigación de Ataques Adversariales en ViT

  • Métodos Tempranos: Principalmente diseñados para CNN, como BIM, PGD, MIM
  • Métodos de Transformación de Entrada: DIM, TIM mejoran transferibilidad mediante transformación de entrada
  • Métodos en Dominio de Frecuencias: SSA explora vulnerabilidades en dominio de frecuencias, pero no optimizado para ViTs

Métodos Específicos para ViT

  • TGR: Reduce varianza mediante inhibición de gradientes extremos
  • GNS-HFA: Regulariza gradientes a distribución gaussiana y mejora alta frecuencia
  • Contribución de este Artículo: Por primera vez considera la relación entre gradientes y características del modelo, proponiendo optimización orientada a comunalidad

Análisis de Arquitectura ViT

Los autores clasifican variantes de ViT en dos categorías:

  1. Tipo Eficiente en Computación: Visformer, PiT, etc., simplifican operaciones de atención
  2. Tipo Eficiente en Datos: DeiT, CaiT, etc., mejoran capacidad de representación mediante destilación de conocimiento

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de Optimización Orientada a Comunalidad: Mediante mejora de comunalidad entre modelos e inhibición de individualidad, se mejora significativamente la transferibilidad de muestras adversariales
  2. Importancia de Estrategia en Dominio de Frecuencias: La mejora de frecuencia media-baja específica para características de ViTs es más efectiva que métodos tradicionales de alta frecuencia
  3. Superioridad de Inhibición Adaptativa: La inhibición adaptativa basada en correlación gradiente-característica supera el ajuste uniforme
  4. Generalización entre Arquitecturas: El método muestra rendimiento excepcional tanto en transferencia entre ViTs como en transferencia de ViT a CNN

Limitaciones

  1. Costo Computacional: Las transformaciones en dominio de frecuencias y análisis de gradientes aumentan el costo computacional
  2. Sensibilidad de Hiperparámetros: Aunque relativamente robusto, aún requiere ajuste apropiado de parámetros
  3. Análisis Teórico: Carece de análisis teórico profundo sobre por qué la mejora de frecuencia media-baja es más efectiva
  4. Defensa Adversarial: No explora suficientemente la robustez contra métodos de defensa específicos

Direcciones Futuras

  1. Perfeccionamiento Teórico: Análisis profundo de la base teórica de comunalidad en dominio de frecuencias
  2. Optimización de Eficiencia: Reducción de costo computacional para mejorar practicidad
  3. Investigación de Defensa: Exploración de mecanismos de defensa contra COGO
  4. Extensión de Aplicaciones: Extensión del método a otras variantes de Vision Transformer

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Por primera vez analiza transferibilidad de muestras adversariales desde perspectiva de comunalidad-individualidad, con enfoque novedoso
  2. Método Sistemático: Los dos componentes CE e IS están bien diseñados, formando marco de optimización completo
  3. Experimentación Integral: Cubre múltiples arquitecturas de modelos y escenarios de ataque, con resultados convincentes
  4. Rendimiento Significativo: Mejora clara comparado con métodos existentes, alcanzando nuevo nivel SOTA
  5. Análisis Profundo: Proporciona análisis de dispersión de gradientes e insights profundos

Deficiencias

  1. Fundamento Teórico: Explicación teórica insuficiente de comunalidad de frecuencia media-baja
  2. Eficiencia Computacional: Las transformaciones en dominio de frecuencias y análisis de gradientes aumentan complejidad computacional
  3. Rango de Aplicabilidad: Principalmente enfocado en ViTs, aplicabilidad limitada a otras arquitecturas
  4. Consideración de Defensa: No considera suficientemente el impacto de defensa adaptativa

Impacto

  1. Valor Académico: Proporciona nuevo enfoque de optimización para investigación de ataques adversariales
  2. Valor Práctico: Puede utilizarse para evaluar robustez de ViTs
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros
  4. Significado Inspirador: El marco de análisis comunalidad-individualidad puede inspirar investigaciones relacionadas

Escenarios de Aplicación

  1. Evaluación de Robustez del Modelo: Evaluación de seguridad de ViTs bajo ataques adversariales
  2. Entrenamiento Adversarial: Generación de muestras de entrenamiento más desafiantes
  3. Investigación de Seguridad: Comprensión y mejora de seguridad de modelos de aprendizaje profundo
  4. Ataques entre Modelos: Ataques de caja negra en escenarios donde no se puede obtener información del modelo objetivo

Referencias

El artículo cita trabajos importantes en campos relacionados, incluyendo:

  • Trabajos fundamentales de Vision Transformer Dosovitskiy et al., 2020
  • Métodos clásicos de ataques adversariales Goodfellow, 2014; Madry et al., 2017
  • Métodos de ataque específicos para ViT Zhang et al., 2023; Zhu et al., 2024
  • Investigación de ataques en dominio de frecuencias Long et al., 2022

Evaluación General: Este es un artículo de alta calidad en investigación de ataques adversariales, demostrando excelencia en innovación de métodos, diseño experimental y análisis de resultados. El método COGO, mediante estrategia dual de mejora de comunalidad e inhibición de individualidad, proporciona solución efectiva para mejorar transferibilidad de muestras adversariales, con valor importante para investigación de seguridad de ViTs.