Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic
Mejora de la Transferibilidad Adversarial mediante Optimización de Gradientes Orientada a la Comunalidad
La exploración de muestras adversariales efectivas y transferibles es crucial para comprender las características y mecanismos de los Vision Transformers (ViTs). Sin embargo, las muestras adversariales generadas por modelos sustitutos frecuentemente presentan una transferibilidad débil en configuraciones de caja negra debido al sobreajuste. Los métodos existentes mejoran la transferibilidad mediante la diversificación de entradas perturbadas o la aplicación de regularización de gradientes uniforme dentro de modelos sustitutos, pero no aprovechan suficientemente las características compartidas y únicas de los modelos sustitutos entrenados en la misma tarea, lo que resulta en un rendimiento de transferencia subóptimo. Por lo tanto, mejorar las perturbaciones que contienen información compartida entre modelos e inhibir las perturbaciones relacionadas con características individuales proporciona una vía efectiva para mejorar la transferibilidad. En consecuencia, proponemos una estrategia de optimización de gradientes orientada a la comunalidad (COGO), que comprende dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS). CE perturba regiones de baja frecuencia, aprovechando el hecho de que los ViTs entrenados en el mismo conjunto de datos tienden a depender más de información de frecuencia media-baja para la clasificación. IS emplea un umbral adaptativo para evaluar la correlación entre gradientes de retropropagación y características individuales del modelo, asignando pesos a los gradientes en consecuencia. Experimentos extensos demuestran que COGO mejora significativamente la tasa de éxito de transferencia de ataques adversariales, superando los métodos de vanguardia actuales.
Este artículo aborda principalmente el problema de transferibilidad en ataques adversariales contra Vision Transformers (ViTs). Específicamente, cuando se utilizan modelos sustitutos para generar muestras adversariales que ataquen modelos objetivo desconocidos, las muestras adversariales generadas frecuentemente no se transfieren efectivamente al modelo objetivo, resultando en ataques fallidos.
Aplicaciones Críticas de Seguridad: La confiabilidad de los ViTs en aplicaciones críticas de seguridad se ve amenazada por ataques adversariales
Realismo de Ataques de Caja Negra: En escenarios prácticos, los atacantes típicamente no pueden acceder a la estructura interna del modelo objetivo, haciendo que la transferibilidad sea crítica
Evaluación de Robustez del Modelo: Comprender la transferibilidad de muestras adversariales ayuda a evaluar y mejorar la robustez del modelo
Sobreajuste: Las muestras adversariales generadas por métodos existentes contienen demasiada información específica del modelo sustituto, resultando en pobre generalización
Tratamiento Uniforme: Métodos como TGR y GNS-HFA solo ajustan gradientes basándose en características estadísticas, sin considerar la correlación entre gradientes y características específicas del modelo
Utilización Inadecuada del Dominio de Frecuencias: Métodos como HFA solo se enfocan en componentes de alta frecuencia, ignorando que los ViTs dependen más de información de frecuencia media-baja
Los autores observan que diferentes ViTs entrenados en el mismo conjunto de datos, aunque tienen diferencias arquitectónicas, comparten patrones de decisión comunes, particularmente en su dependencia de información de frecuencia media-baja. Por lo tanto, mediante la mejora de características comunes e inhibición de características individuales, es posible generar muestras adversariales más transferibles.
Propuesta de Estrategia de Optimización Orientada a la Comunalidad: Por primera vez, considera la relación entre gradientes y características del modelo, yendo más allá de métodos tradicionales de ajuste de gradientes uniforme
Diseño del Marco COGO: Combina dos componentes: Mejora de Comunalidad (CE) e Inhibición de Individualidad (IS), utilizando mejora de energía en el dominio de frecuencias y mecanismos de umbral adaptativo
Mejora Significativa de Rendimiento: Supera significativamente los métodos de vanguardia existentes en múltiples evaluaciones comparativas, incluyendo GNS-HFA y ATT
Verificación Experimental Integral: Logra un rendimiento excepcional tanto en transferencia entre ViTs como en transferencia entre arquitecturas de ViT a CNN
Dado un imagen de entrada limpia Xclean∈RN, el objetivo es generar una perturbación adversarial δ, tal que Xadv=Xclean+δ pueda atacar exitosamente el modelo sustituto y tenga buena transferibilidad de caja negra a modelos objetivo desconocidos.
Utilización de Comunalidad en Dominio de Frecuencias: A diferencia de HFA que solo se enfoca en alta frecuencia, CE mejora específicamente componentes de frecuencia media-baja en los que los ViTs dependen
Inhibición de Gradientes Adaptativa: IS utiliza umbrales adaptativos en lugar de umbrales fijos, identificando y suprimiendo mejor los gradientes específicos del modelo
Estrategia de Optimización Dual: CE e IS optimizan conjuntamente desde direcciones hacia adelante y hacia atrás, formando efectos complementarios
TGR: Reduce varianza mediante inhibición de gradientes extremos
GNS-HFA: Regulariza gradientes a distribución gaussiana y mejora alta frecuencia
Contribución de este Artículo: Por primera vez considera la relación entre gradientes y características del modelo, proponiendo optimización orientada a comunalidad
Efectividad de Optimización Orientada a Comunalidad: Mediante mejora de comunalidad entre modelos e inhibición de individualidad, se mejora significativamente la transferibilidad de muestras adversariales
Importancia de Estrategia en Dominio de Frecuencias: La mejora de frecuencia media-baja específica para características de ViTs es más efectiva que métodos tradicionales de alta frecuencia
Superioridad de Inhibición Adaptativa: La inhibición adaptativa basada en correlación gradiente-característica supera el ajuste uniforme
Generalización entre Arquitecturas: El método muestra rendimiento excepcional tanto en transferencia entre ViTs como en transferencia de ViT a CNN
Innovación Fuerte: Por primera vez analiza transferibilidad de muestras adversariales desde perspectiva de comunalidad-individualidad, con enfoque novedoso
Método Sistemático: Los dos componentes CE e IS están bien diseñados, formando marco de optimización completo
Experimentación Integral: Cubre múltiples arquitecturas de modelos y escenarios de ataque, con resultados convincentes
Rendimiento Significativo: Mejora clara comparado con métodos existentes, alcanzando nuevo nivel SOTA
Análisis Profundo: Proporciona análisis de dispersión de gradientes e insights profundos
El artículo cita trabajos importantes en campos relacionados, incluyendo:
Trabajos fundamentales de Vision Transformer Dosovitskiy et al., 2020
Métodos clásicos de ataques adversariales Goodfellow, 2014; Madry et al., 2017
Métodos de ataque específicos para ViT Zhang et al., 2023; Zhu et al., 2024
Investigación de ataques en dominio de frecuencias Long et al., 2022
Evaluación General: Este es un artículo de alta calidad en investigación de ataques adversariales, demostrando excelencia en innovación de métodos, diseño experimental y análisis de resultados. El método COGO, mediante estrategia dual de mejora de comunalidad e inhibición de individualidad, proporciona solución efectiva para mejorar transferibilidad de muestras adversariales, con valor importante para investigación de seguridad de ViTs.