2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.

Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.

academic

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

基本信息

论文ID: 2506.06992
标题: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
作者: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
所属机构: 同济大学, 佛罗里达大学
分类: cs.CV (计算机视觉)
发表时间: 2025年10月12日 (arXiv预印本v2)
论文链接: https://arxiv.org/abs/2506.06992

摘要

探索有效且可迁移的对抗样本对于理解Vision Transformers (ViTs)的特性和机制至关重要。然而，由代理模型生成的对抗样本在黑盒设置中往往由于过拟合而表现出较弱的可迁移性。现有方法通过多样化扰动输入或在代理模型内应用统一梯度正则化来改善可迁移性，但未能充分利用在相同任务上训练的代理模型的共享和独特特征，导致迁移性能次优。因此，增强代理模型共享信息的扰动并抑制与个体特征相关的扰动提供了改善可迁移性的有效途径。据此，我们提出了一种面向共性的梯度优化策略(COGO)，包含两个组件：共性增强(CE)和个性抑制(IS)。CE扰动中低频区域，利用在相同数据集上训练的ViTs倾向于更多依赖中低频信息进行分类的事实。IS采用自适应阈值评估反向传播梯度与模型个性之间的相关性，相应地为梯度分配权重。大量实验表明，COGO显著提高了对抗攻击的迁移成功率，优于当前最先进的方法。

研究背景与动机

1. 研究问题

本文主要解决Vision Transformers (ViTs)对抗攻击中的可迁移性问题。具体而言，当使用代理模型生成对抗样本攻击未知目标模型时，生成的对抗样本往往无法有效迁移到目标模型，导致攻击失败。

2. 问题重要性

安全关键应用: ViTs在安全关键应用中的可靠性受到对抗攻击的严重威胁
黑盒攻击现实性: 在实际场景中，攻击者通常无法获得目标模型的内部结构，使得可迁移性成为关键
模型鲁棒性评估: 理解对抗样本的可迁移性有助于评估和改进模型的鲁棒性

3. 现有方法局限性

过度拟合: 现有方法生成的对抗样本包含过多代理模型特定信息，导致泛化能力差
统一处理: 如TGR和GNS-HFA等方法仅基于统计特性统一调整梯度，未考虑梯度与模型特定特征的相关性
频域利用不当: HFA等方法仅关注高频成分，忽略了ViTs更依赖中低频信息的特点

4. 研究动机

作者观察到在相同数据集上训练的不同ViTs虽然具有架构差异，但在决策模式上存在共性，特别是对中低频信息的依赖。因此，通过增强共性特征并抑制个性特征，可以生成更具可迁移性的对抗样本。

核心贡献

提出面向共性的优化策略: 首次考虑梯度与模型特征之间的关系，超越传统的统一梯度调整方法
设计COGO框架: 结合共性增强(CE)和个性抑制(IS)两个组件，利用频域能量增强和自适应阈值机制
显著性能提升: 在多个基准测试中显著优于现有最先进方法，包括GNS-HFA和ATT
全面实验验证: 在ViT间迁移和ViT到CNN的跨架构迁移中都取得了优异表现

方法详解

任务定义

给定干净输入图像 $X_{clean} \in \mathbb{R}^N$ ，目标是生成对抗扰动 $\delta$ ，使得 $X_{adv} = X_{clean} + \delta$ 能够在代理模型上成功攻击，并具有良好的黑盒可迁移性到未知目标模型。

模型架构

COGO策略包含两个核心组件：

1. 共性增强 (Commonality Enhancement, CE)

CE模块在前向传播过程中增强中低频成分：

步骤1: 添加当前扰动和高斯噪声

X = X_clean + δ
X_DCT = DCT(X + ε), where ε ~ N(0, I_N)

步骤2: 计算能量分布并增强

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

步骤3: 转换回空域并应用空间掩码

X_IDCT = IDCT(X'_DCT · M)

其中 γ 控制增强强度，M 是继承自HFA的空间掩码。

2. 个性抑制 (Individuality Suppression, IS)

IS模块在反向传播过程中抑制代理模型特定的梯度：

针对冗余特征的抑制:

使用互信息(MI)和皮尔逊相关系数(PC)量化通道间冗余
自适应阈值: $\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))$
权重计算: $w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))$
梯度调整: $\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i$

针对附加知识的抑制:

对于数据高效的ViTs中的蒸馏token等附加token
缩放因子: $c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})$
梯度调整: $\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}$

技术创新点

频域共性利用: 不同于HFA仅关注高频，CE针对性地增强ViTs依赖的中低频成分
自适应梯度抑制: IS使用自适应阈值而非固定阈值，更好地识别和抑制模型特定梯度
双重优化策略: CE和IS从前向和反向两个方向协同优化，形成互补效应

实验设置

数据集

ILSVRC 2012验证集: 随机采样1000张图像，这是迁移攻击研究的标准设置
遵循TGR等先前工作的实验协议

评价指标

攻击成功率 (ASR): $\text{ASR} = \frac{\text{成功攻击数量}}{\text{总攻击数量}} \times 100\%$
衡量对抗样本导致目标模型错误分类的比例

对比方法

主要基线: TGR (专门针对ViTs设计)
最新方法: GNS-HFA, ATT
经典方法: MIM, SINI-FGSM, PNA, SSA

实验模型

代理模型: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
ViT目标模型: TNT-S, ConViT-B等
CNN目标模型: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
防御模型: 对抗训练的集成模型

实现细节

攻击迭代次数: 10次
最大 $\ell_\infty$ 扰动: $\epsilon = 8$ (0-255尺度)
关键超参数: $\gamma = 1$ , $\alpha = 0.1$ , $\beta_{MI} = 0.5$ , $\beta_{corr} = 0.7$

实验结果

主要结果

ViT间迁移性能:

相比GNS-HFA平均提升7.2%
相比ATT平均提升10.1%
在所有测试的ViT架构上都取得了最佳性能

跨架构迁移性能 (ViT → CNN):

相比GNS-HFA平均提升2.3%
相比ATT平均提升10.5%
对防御模型也保持良好的攻击效果

具体数值示例 (以Visformer-S为代理模型):

方法	ViT-B/16	DeiT-B	TNT-S	Inc-v3	Inc-v4
GNS-HFA	49.1%	54.1%	81.3%	71.6%	71.3%
COGO	55.2%	64.9%	85.5%	71.8%	72.4%

消融实验

CE和IS组件贡献:

CE	IS	ViTs	CNNs	CNNs-adv
-	-	46.64%	30.45%	9.80%
✓	-	72.56% (+25.92%)	56.18% (+25.73%)	32.15% (+22.35%)
-	✓	62.38% (+15.74%)	45.85% (+15.40%)	22.77% (+12.97%)
✓	✓	77.97% (+31.33%)	63.73% (+33.28%)	36.75% (+26.95%)