Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
효과적이고 전이 가능한 적대적 샘플 탐색은 Vision Transformers (ViTs)의 특성과 메커니즘을 이해하는 데 필수적입니다. 그러나 대리 모델에서 생성된 적대적 샘플은 과적합으로 인해 블랙박스 설정에서 약한 전이성을 나타내는 경향이 있습니다. 기존 방법들은 입력 섭동을 다양화하거나 대리 모델 내에서 균일한 그래디언트 정규화를 적용하여 전이성을 개선하려 했지만, 동일한 작업에서 훈련된 대리 모델의 공유 및 고유 특징을 충분히 활용하지 못하여 차선의 전이 성능을 초래했습니다. 따라서 대리 모델의 공유 정보를 강화하는 섭동을 증대하고 개별 특징과 관련된 섭동을 억제하는 것이 전이성 개선의 효과적인 경로를 제공합니다. 이에 따라 우리는 공통성 강화(CE)와 개별성 억제(IS)의 두 가지 구성 요소를 포함하는 공통성 지향 그래디언트 최적화 전략(COGO)을 제안합니다. CE는 저주파 영역의 섭동을 강화하며, 동일한 데이터셋에서 훈련된 ViTs가 분류를 위해 중저주파 정보에 더 많이 의존하는 사실을 활용합니다. IS는 자적응 임계값을 사용하여 역전파 그래디언트와 모델 개별성 간의 상관관계를 평가하고, 그에 따라 그래디언트에 가중치를 할당합니다. 광범위한 실험은 COGO가 적대적 공격의 전이 성공률을 크게 향상시키며 현재의 최첨단 방법을 능가함을 보여줍니다.
본 논문은 Vision Transformers (ViTs)의 적대적 공격에서 전이성 문제를 주로 해결합니다. 구체적으로, 대리 모델을 사용하여 미지의 목표 모델을 공격하기 위한 적대적 샘플을 생성할 때, 생성된 적대적 샘플은 목표 모델로 효과적으로 전이되지 못하여 공격 실패를 초래합니다.
저자들은 동일한 데이터셋에서 훈련된 서로 다른 ViTs가 아키텍처 차이에도 불구하고 의사결정 패턴에서 공통성을 가지며, 특히 중저주파 정보에 대한 의존성이 있음을 관찰했습니다. 따라서 공통 특징을 강화하고 개별 특징을 억제함으로써 더욱 전이 가능한 적대적 샘플을 생성할 수 있습니다.
종합 평가: 이는 방법 혁신, 실험 설계 및 결과 분석 측면에서 모두 우수한 성능을 보이는 고품질의 적대적 공격 연구 논문입니다. COGO 방법은 공통성 강화 및 개별성 억제의 이중 전략을 통해 적대적 샘플의 전이성 향상을 위한 효과적인 해결책을 제공하며, ViT 보안 연구에 중요한 가치를 가집니다.