2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

공통성 지향 그래디언트 최적화를 통한 적대적 전이성 향상

기본 정보

  • 논문 ID: 2506.06992
  • 제목: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • 저자: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • 소속 기관: 동제대학교, 플로리다대학교
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 12일 (arXiv 사전인쇄본 v2)
  • 논문 링크: https://arxiv.org/abs/2506.06992

초록

효과적이고 전이 가능한 적대적 샘플 탐색은 Vision Transformers (ViTs)의 특성과 메커니즘을 이해하는 데 필수적입니다. 그러나 대리 모델에서 생성된 적대적 샘플은 과적합으로 인해 블랙박스 설정에서 약한 전이성을 나타내는 경향이 있습니다. 기존 방법들은 입력 섭동을 다양화하거나 대리 모델 내에서 균일한 그래디언트 정규화를 적용하여 전이성을 개선하려 했지만, 동일한 작업에서 훈련된 대리 모델의 공유 및 고유 특징을 충분히 활용하지 못하여 차선의 전이 성능을 초래했습니다. 따라서 대리 모델의 공유 정보를 강화하는 섭동을 증대하고 개별 특징과 관련된 섭동을 억제하는 것이 전이성 개선의 효과적인 경로를 제공합니다. 이에 따라 우리는 공통성 강화(CE)와 개별성 억제(IS)의 두 가지 구성 요소를 포함하는 공통성 지향 그래디언트 최적화 전략(COGO)을 제안합니다. CE는 저주파 영역의 섭동을 강화하며, 동일한 데이터셋에서 훈련된 ViTs가 분류를 위해 중저주파 정보에 더 많이 의존하는 사실을 활용합니다. IS는 자적응 임계값을 사용하여 역전파 그래디언트와 모델 개별성 간의 상관관계를 평가하고, 그에 따라 그래디언트에 가중치를 할당합니다. 광범위한 실험은 COGO가 적대적 공격의 전이 성공률을 크게 향상시키며 현재의 최첨단 방법을 능가함을 보여줍니다.

연구 배경 및 동기

1. 연구 문제

본 논문은 Vision Transformers (ViTs)의 적대적 공격에서 전이성 문제를 주로 해결합니다. 구체적으로, 대리 모델을 사용하여 미지의 목표 모델을 공격하기 위한 적대적 샘플을 생성할 때, 생성된 적대적 샘플은 목표 모델로 효과적으로 전이되지 못하여 공격 실패를 초래합니다.

2. 문제의 중요성

  • 안전 관련 응용: ViTs의 안전 관련 응용에서의 신뢰성이 적대적 공격으로 인해 심각한 위협을 받음
  • 블랙박스 공격의 현실성: 실제 시나리오에서 공격자는 일반적으로 목표 모델의 내부 구조에 접근할 수 없으므로 전이성이 핵심이 됨
  • 모델 견고성 평가: 적대적 샘플의 전이성을 이해하는 것은 모델의 견고성 평가 및 개선에 도움이 됨

3. 기존 방법의 한계

  • 과적합: 기존 방법에서 생성된 적대적 샘플은 대리 모델 특정 정보를 과도하게 포함하여 일반화 능력이 떨어짐
  • 균일한 처리: TGR 및 GNS-HFA 등의 방법은 통계적 특성만을 기반으로 그래디언트를 균일하게 조정하며, 그래디언트와 모델 특정 특징 간의 상관관계를 고려하지 않음
  • 부적절한 주파수 영역 활용: HFA 등의 방법은 고주파 성분만 집중하며, ViTs가 중저주파 정보에 더 의존한다는 사실을 간과함

4. 연구 동기

저자들은 동일한 데이터셋에서 훈련된 서로 다른 ViTs가 아키텍처 차이에도 불구하고 의사결정 패턴에서 공통성을 가지며, 특히 중저주파 정보에 대한 의존성이 있음을 관찰했습니다. 따라서 공통 특징을 강화하고 개별 특징을 억제함으로써 더욱 전이 가능한 적대적 샘플을 생성할 수 있습니다.

핵심 기여

  1. 공통성 지향 최적화 전략 제안: 그래디언트와 모델 특징 간의 관계를 처음으로 고려하여 기존의 균일한 그래디언트 조정 방법을 초월함
  2. COGO 프레임워크 설계: 공통성 강화(CE)와 개별성 억제(IS)의 두 가지 구성 요소를 결합하며, 주파수 영역 에너지 강화 및 자적응 임계값 메커니즘을 활용함
  3. 현저한 성능 향상: 다양한 벤치마크 테스트에서 GNS-HFA 및 ATT를 포함한 기존의 최첨단 방법을 크게 능가함
  4. 포괄적 실험 검증: ViT 간 전이 및 ViT에서 CNN으로의 교차 아키텍처 전이 모두에서 우수한 성능을 달성함

방법 상세 설명

작업 정의

깨끗한 입력 이미지 XcleanRNX_{clean} \in \mathbb{R}^N이 주어졌을 때, 목표는 적대적 섭동 δ\delta를 생성하여 Xadv=Xclean+δX_{adv} = X_{clean} + \delta가 대리 모델에서 성공적으로 공격하고 미지의 목표 모델로의 양호한 블랙박스 전이성을 가지도록 하는 것입니다.

모델 아키텍처

COGO 전략은 두 가지 핵심 구성 요소를 포함합니다:

1. 공통성 강화 (Commonality Enhancement, CE)

CE 모듈은 전방향 전파 과정에서 중저주파 성분을 강화합니다:

단계 1: 현재 섭동 및 가우시안 노이즈 추가

X = X_clean + δ
X_DCT = DCT(X + ε), where ε ~ N(0, I_N)

단계 2: 에너지 분포 계산 및 강화

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

단계 3: 공간 영역으로 변환 및 공간 마스크 적용

X_IDCT = IDCT(X'_DCT · M)

여기서 γ는 강화 강도를 제어하고, M은 HFA에서 상속된 공간 마스크입니다.

2. 개별성 억제 (Individuality Suppression, IS)

IS 모듈은 역전파 과정에서 대리 모델 특정 그래디언트를 억제합니다:

중복 특징에 대한 억제:

  • 상호 정보(MI) 및 피어슨 상관 계수(PC)를 사용하여 채널 간 중복성 정량화
  • 자적응 임계값: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • 가중치 계산: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • 그래디언트 조정: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

추가 지식에 대한 억제:

  • 데이터 효율적인 ViTs의 증류 토큰 등 추가 토큰에 대해
  • 스케일링 계수: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • 그래디언트 조정: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

기술적 혁신점

  1. 주파수 영역 공통성 활용: HFA가 고주파만 집중하는 것과 달리, CE는 ViTs가 의존하는 중저주파 성분을 목표로 강화함
  2. 자적응 그래디언트 억제: IS는 고정 임계값이 아닌 자적응 임계값을 사용하여 모델 특정 그래디언트를 더 잘 식별하고 억제함
  3. 이중 최적화 전략: CE와 IS는 전방향 및 역방향에서 협력적으로 최적화하여 상호 보완 효과를 형성함

실험 설정

데이터셋

  • ILSVRC 2012 검증 집합: 무작위로 1000개 이미지 샘플링, 전이 공격 연구의 표준 설정
  • 이전 TGR 등의 작업 실험 프로토콜 준수

평가 지표

  • 공격 성공률 (ASR): ASR=성공한 공격 수총 공격 수×100%\text{ASR} = \frac{\text{성공한 공격 수}}{\text{총 공격 수}} \times 100\%
  • 적대적 샘플이 목표 모델의 오분류를 유발하는 비율 측정

비교 방법

  • 주요 기준선: TGR (ViTs를 위해 특별히 설계됨)
  • 최신 방법: GNS-HFA, ATT
  • 고전적 방법: MIM, SINI-FGSM, PNA, SSA

실험 모델

  • 대리 모델: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • ViT 목표 모델: TNT-S, ConViT-B 등
  • CNN 목표 모델: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • 방어 모델: 적대적 훈련된 앙상블 모델

구현 세부 사항

  • 공격 반복 횟수: 10회
  • 최대 \ell_\infty 섭동: ϵ=8\epsilon = 8 (0-255 스케일)
  • 주요 하이퍼파라미터: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

실험 결과

주요 결과

ViT 간 전이 성능:

  • GNS-HFA 대비 평균 7.2% 향상
  • ATT 대비 평균 10.1% 향상
  • 테스트된 모든 ViT 아키텍처에서 최고 성능 달성

교차 아키텍처 전이 성능 (ViT → CNN):

  • GNS-HFA 대비 평균 2.3% 향상
  • ATT 대비 평균 10.5% 향상
  • 방어 모델에 대해서도 양호한 공격 효과 유지

구체적 수치 예시 (Visformer-S를 대리 모델로 사용):

방법ViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49.1%54.1%81.3%71.6%71.3%
COGO55.2%64.9%85.5%71.8%72.4%

절제 실험

CE 및 IS 구성 요소 기여도:

CEISViTsCNNsCNNs-adv
--46.64%30.45%9.80%
-72.56% (+25.92%)56.18% (+25.73%)32.15% (+22.35%)
-62.38% (+15.74%)45.85% (+15.40%)22.77% (+12.97%)
77.97% (+31.33%)63.73% (+33.28%)36.75% (+26.95%)

주요 발견:

  • CE 구성 요소가 더 큰 기여를 하며, 주파수 영역 강화의 중요성을 증명함
  • IS 구성 요소는 효과적인 보완을 제공하며, 두 가지를 결합할 때 최고의 효과를 달성함
  • 모든 유형의 모델에서 현저한 향상을 보임

하이퍼파라미터 민감도:

  • 강화 계수 γ = 1일 때 최고 성능 달성
  • 반복 횟수 N = 10일 때 성능 균형 달성
  • 채널 쌍 수량이 결과에 미치는 영향이 적으며, 방법의 견고성을 증명함

그래디언트 분석

그래디언트 분산성 지표를 통한 분석 결과:

  • COGO는 그래디언트 분포를 더욱 균일하고 다양하게 만듦
  • 대리 모델 특정 특징에 대한 의존성 감소
  • CE와 IS의 상호 보완성이 다양한 계층에서 명확하게 나타남

관련 연구

ViT 적대적 공격 연구

  • 초기 방법: 주로 CNN을 위해 설계됨, BIM, PGD, MIM 등
  • 입력 변환 방법: DIM, TIM은 입력 변환을 통해 전이성 향상
  • 주파수 영역 방법: SSA는 주파수 영역 취약성을 탐색하지만 ViTs에 최적화되지 않음

ViT 특정 방법

  • TGR: 극단 그래디언트 억제를 통해 분산 감소
  • GNS-HFA: 그래디언트를 가우시안 분포로 정규화하고 고주파 강화
  • 본 논문의 기여: 그래디언트와 모델 특징의 관계를 처음으로 고려하여 공통성 지향 최적화 제안

ViT 아키텍처 분석

저자들은 ViT 변형을 두 가지 범주로 분류합니다:

  1. 계산 효율형: Visformer, PiT 등, 주의 메커니즘 단순화
  2. 데이터 효율형: DeiT, CaiT 등, 지식 증류 등을 통해 표현 능력 향상

결론 및 논의

주요 결론

  1. 공통성 지향 최적화의 효과성: 모델 간 공통성을 강화하고 개별성을 억제함으로써 적대적 샘플의 전이성을 크게 향상시킴
  2. 주파수 영역 전략의 중요성: ViTs 특성에 맞춘 중저주파 강화가 기존 고주파 방법보다 더 효과적임
  3. 자적응 억제의 우월성: 그래디언트-특징 상관관계 기반 자적응 억제가 균일한 조정보다 우수함
  4. 교차 아키텍처 일반화성: 방법이 ViT 간 및 ViT에서 CNN으로의 전이 모두에서 우수한 성능을 나타냄

한계

  1. 계산 오버헤드: 주파수 영역 변환 및 그래디언트 분석이 계산 비용을 증가시킴
  2. 하이퍼파라미터 민감도: 상대적으로 견고하지만 여전히 적절한 파라미터 조정이 필요함
  3. 이론적 분석 부족: 중저주파 강화가 더 효과적인 이유에 대한 심층적 이론적 분석 부족
  4. 방어 대응 부족: 목표 방어 방법에 대한 견고성을 충분히 탐색하지 않음

향후 방향

  1. 이론 완성: 주파수 영역 공통성의 이론적 기초에 대한 심층 분석
  2. 효율성 최적화: 계산 오버헤드 감소 및 실용성 향상
  3. 방어 연구: COGO에 대한 방어 메커니즘 탐색
  4. 응용 확장: 방법을 다른 Vision Transformer 변형으로 확장

심층 평가

장점

  1. 높은 혁신성: 공통성-개별성 관점에서 적대적 샘플 전이성을 분석한 최초 연구로 사고방식이 참신함
  2. 체계적 방법: CE와 IS 두 구성 요소가 합리적으로 설계되어 완전한 최적화 프레임워크를 형성함
  3. 충분한 실험: 다양한 모델 아키텍처 및 공격 시나리오를 포함하며 결과의 설득력이 강함
  4. 현저한 성능: 기존 방법 대비 명확한 향상을 달성하여 새로운 SOTA 수준에 도달함
  5. 심층적 분석: 그래디언트 분산성 분석 등 심층적 통찰력 제공

부족한 점

  1. 이론적 기초: 중저주파 공통성에 대한 이론적 설명이 충분하지 않음
  2. 계산 효율성: 주파수 영역 변환 및 그래디언트 분석이 계산 복잡도를 증가시킴
  3. 적용 범위: 주로 ViTs에 초점을 맞추며 다른 아키텍처에 대한 적용성이 제한적임
  4. 방어 고려: 자적응 방어의 영향을 충분히 고려하지 않음

영향력

  1. 학술적 가치: 적대적 공격 연구에 새로운 최적화 사고방식 제공
  2. 실용적 가치: ViTs의 견고성 평가에 사용 가능
  3. 재현성: 상세한 구현 세부 사항 및 하이퍼파라미터 설정 제공
  4. 영감 제공: 공통성-개별성 분석 프레임워크가 관련 연구에 영감을 줄 수 있음

적용 시나리오

  1. 모델 견고성 평가: ViTs의 적대적 공격에 대한 안전성 평가
  2. 적대적 훈련: 더욱 도전적인 훈련 샘플 생성
  3. 보안 연구: 심층 학습 모델의 보안성 이해 및 개선
  4. 교차 모델 공격: 목표 모델 정보를 얻을 수 없는 블랙박스 시나리오에서의 공격

참고 문헌

논문은 관련 분야의 중요한 작업을 인용했으며, 다음을 포함합니다:

  • Vision Transformer 기초 작업 Dosovitskiy et al., 2020
  • 적대적 공격 고전 방법 Goodfellow, 2014; Madry et al., 2017
  • ViT 특정 공격 방법 Zhang et al., 2023; Zhu et al., 2024
  • 주파수 영역 공격 연구 Long et al., 2022

종합 평가: 이는 방법 혁신, 실험 설계 및 결과 분석 측면에서 모두 우수한 성능을 보이는 고품질의 적대적 공격 연구 논문입니다. COGO 방법은 공통성 강화 및 개별성 억제의 이중 전략을 통해 적대적 샘플의 전이성 향상을 위한 효과적인 해결책을 제공하며, ViT 보안 연구에 중요한 가치를 가집니다.