2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

基本信息

  • 论文ID: 2506.06992
  • 标题: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • 作者: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • 所属机构: 同济大学, 佛罗里达大学
  • 分类: cs.CV (计算机视觉)
  • 发表时间: 2025年10月12日 (arXiv预印本v2)
  • 论文链接: https://arxiv.org/abs/2506.06992

摘要

探索有效且可迁移的对抗样本对于理解Vision Transformers (ViTs)的特性和机制至关重要。然而,由代理模型生成的对抗样本在黑盒设置中往往由于过拟合而表现出较弱的可迁移性。现有方法通过多样化扰动输入或在代理模型内应用统一梯度正则化来改善可迁移性,但未能充分利用在相同任务上训练的代理模型的共享和独特特征,导致迁移性能次优。因此,增强代理模型共享信息的扰动并抑制与个体特征相关的扰动提供了改善可迁移性的有效途径。据此,我们提出了一种面向共性的梯度优化策略(COGO),包含两个组件:共性增强(CE)和个性抑制(IS)。CE扰动中低频区域,利用在相同数据集上训练的ViTs倾向于更多依赖中低频信息进行分类的事实。IS采用自适应阈值评估反向传播梯度与模型个性之间的相关性,相应地为梯度分配权重。大量实验表明,COGO显著提高了对抗攻击的迁移成功率,优于当前最先进的方法。

研究背景与动机

1. 研究问题

本文主要解决Vision Transformers (ViTs)对抗攻击中的可迁移性问题。具体而言,当使用代理模型生成对抗样本攻击未知目标模型时,生成的对抗样本往往无法有效迁移到目标模型,导致攻击失败。

2. 问题重要性

  • 安全关键应用: ViTs在安全关键应用中的可靠性受到对抗攻击的严重威胁
  • 黑盒攻击现实性: 在实际场景中,攻击者通常无法获得目标模型的内部结构,使得可迁移性成为关键
  • 模型鲁棒性评估: 理解对抗样本的可迁移性有助于评估和改进模型的鲁棒性

3. 现有方法局限性

  • 过度拟合: 现有方法生成的对抗样本包含过多代理模型特定信息,导致泛化能力差
  • 统一处理: 如TGR和GNS-HFA等方法仅基于统计特性统一调整梯度,未考虑梯度与模型特定特征的相关性
  • 频域利用不当: HFA等方法仅关注高频成分,忽略了ViTs更依赖中低频信息的特点

4. 研究动机

作者观察到在相同数据集上训练的不同ViTs虽然具有架构差异,但在决策模式上存在共性,特别是对中低频信息的依赖。因此,通过增强共性特征并抑制个性特征,可以生成更具可迁移性的对抗样本。

核心贡献

  1. 提出面向共性的优化策略: 首次考虑梯度与模型特征之间的关系,超越传统的统一梯度调整方法
  2. 设计COGO框架: 结合共性增强(CE)和个性抑制(IS)两个组件,利用频域能量增强和自适应阈值机制
  3. 显著性能提升: 在多个基准测试中显著优于现有最先进方法,包括GNS-HFA和ATT
  4. 全面实验验证: 在ViT间迁移和ViT到CNN的跨架构迁移中都取得了优异表现

方法详解

任务定义

给定干净输入图像 XcleanRNX_{clean} \in \mathbb{R}^N,目标是生成对抗扰动 δ\delta,使得 Xadv=Xclean+δX_{adv} = X_{clean} + \delta 能够在代理模型上成功攻击,并具有良好的黑盒可迁移性到未知目标模型。

模型架构

COGO策略包含两个核心组件:

1. 共性增强 (Commonality Enhancement, CE)

CE模块在前向传播过程中增强中低频成分:

步骤1: 添加当前扰动和高斯噪声

X = X_clean + δ
X_DCT = DCT(X + ε), where ε ~ N(0, I_N)

步骤2: 计算能量分布并增强

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

步骤3: 转换回空域并应用空间掩码

X_IDCT = IDCT(X'_DCT · M)

其中 γ 控制增强强度,M 是继承自HFA的空间掩码。

2. 个性抑制 (Individuality Suppression, IS)

IS模块在反向传播过程中抑制代理模型特定的梯度:

针对冗余特征的抑制:

  • 使用互信息(MI)和皮尔逊相关系数(PC)量化通道间冗余
  • 自适应阈值: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • 权重计算: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • 梯度调整: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

针对附加知识的抑制:

  • 对于数据高效的ViTs中的蒸馏token等附加token
  • 缩放因子: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • 梯度调整: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

技术创新点

  1. 频域共性利用: 不同于HFA仅关注高频,CE针对性地增强ViTs依赖的中低频成分
  2. 自适应梯度抑制: IS使用自适应阈值而非固定阈值,更好地识别和抑制模型特定梯度
  3. 双重优化策略: CE和IS从前向和反向两个方向协同优化,形成互补效应

实验设置

数据集

  • ILSVRC 2012验证集: 随机采样1000张图像,这是迁移攻击研究的标准设置
  • 遵循TGR等先前工作的实验协议

评价指标

  • 攻击成功率 (ASR): ASR=成功攻击数量总攻击数量×100%\text{ASR} = \frac{\text{成功攻击数量}}{\text{总攻击数量}} \times 100\%
  • 衡量对抗样本导致目标模型错误分类的比例

对比方法

  • 主要基线: TGR (专门针对ViTs设计)
  • 最新方法: GNS-HFA, ATT
  • 经典方法: MIM, SINI-FGSM, PNA, SSA

实验模型

  • 代理模型: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • ViT目标模型: TNT-S, ConViT-B等
  • CNN目标模型: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • 防御模型: 对抗训练的集成模型

实现细节

  • 攻击迭代次数: 10次
  • 最大 \ell_\infty 扰动: ϵ=8\epsilon = 8 (0-255尺度)
  • 关键超参数: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

实验结果

主要结果

ViT间迁移性能:

  • 相比GNS-HFA平均提升7.2%
  • 相比ATT平均提升10.1%
  • 在所有测试的ViT架构上都取得了最佳性能

跨架构迁移性能 (ViT → CNN):

  • 相比GNS-HFA平均提升2.3%
  • 相比ATT平均提升10.5%
  • 对防御模型也保持良好的攻击效果

具体数值示例 (以Visformer-S为代理模型):

方法ViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49.1%54.1%81.3%71.6%71.3%
COGO55.2%64.9%85.5%71.8%72.4%

消融实验

CE和IS组件贡献:

CEISViTsCNNsCNNs-adv
--46.64%30.45%9.80%
-72.56% (+25.92%)56.18% (+25.73%)32.15% (+22.35%)
-62.38% (+15.74%)45.85% (+15.40%)22.77% (+12.97%)
77.97% (+31.33%)63.73% (+33.28%)36.75% (+26.95%)

关键发现:

  • CE组件贡献更大,证明频域增强的重要性
  • IS组件提供有效补充,两者结合效果最佳
  • 在所有类型模型上都有显著提升

超参数敏感性:

  • 增强系数 γ = 1 时效果最佳
  • 迭代次数 N = 10 时达到性能平衡
  • 通道对数量对结果影响较小,证明方法的鲁棒性

梯度分析

通过梯度分散性指标分析发现:

  • COGO使梯度分布更加均匀多样
  • 减少了对代理模型特定特征的依赖
  • CE和IS的互补性在不同层中表现明显

相关工作

ViT对抗攻击研究

  • 早期方法: 主要针对CNN设计,如BIM, PGD, MIM
  • 输入变换方法: DIM, TIM通过输入变换提升可迁移性
  • 频域方法: SSA探索频域脆弱性,但未针对ViTs优化

ViT特定方法

  • TGR: 通过抑制极端梯度减少方差
  • GNS-HFA: 将梯度正则化为高斯分布并增强高频
  • 本文贡献: 首次考虑梯度与模型特征的关系,提出共性导向优化

ViT架构分析

作者将ViT变体分为两类:

  1. 计算效率型: Visformer, PiT等,简化注意力操作
  2. 数据效率型: DeiT, CaiT等,通过知识蒸馏等提升表示能力

结论与讨论

主要结论

  1. 共性导向优化有效: 通过增强模型间共性并抑制个性,显著提升对抗样本可迁移性
  2. 频域策略重要: 针对ViTs特点的中低频增强比传统高频方法更有效
  3. 自适应抑制优越: 基于梯度-特征相关性的自适应抑制优于统一调整
  4. 跨架构泛化性: 方法在ViT间和ViT到CNN的迁移中都表现优异

局限性

  1. 计算开销: 频域变换和梯度分析增加了计算成本
  2. 超参数敏感: 虽然相对鲁棒,但仍需要适当的参数调整
  3. 理论分析: 缺乏对为什么中低频增强更有效的深入理论分析
  4. 防御对抗: 未充分探讨针对性防御方法的鲁棒性

未来方向

  1. 理论完善: 深入分析频域共性的理论基础
  2. 效率优化: 减少计算开销,提升实用性
  3. 防御研究: 探索针对COGO的防御机制
  4. 扩展应用: 将方法扩展到其他Vision Transformer变体

深度评价

优点

  1. 创新性强: 首次从共性-个性角度分析对抗样本可迁移性,思路新颖
  2. 方法系统: CE和IS两个组件设计合理,形成完整的优化框架
  3. 实验充分: 涵盖多种模型架构和攻击场景,结果说服力强
  4. 性能显著: 相比现有方法有明显提升,达到新的SOTA水平
  5. 分析深入: 提供了梯度分散性分析等深入洞察

不足

  1. 理论基础: 对中低频共性的理论解释不够深入
  2. 计算效率: 频域变换和梯度分析增加了计算复杂度
  3. 适用范围: 主要针对ViTs,对其他架构的适用性有限
  4. 防御考虑: 未充分考虑自适应防御的影响

影响力

  1. 学术价值: 为对抗攻击研究提供了新的优化思路
  2. 实用价值: 可用于评估ViTs的鲁棒性
  3. 可复现性: 提供了详细的实现细节和超参数设置
  4. 启发意义: 共性-个性分析框架可能启发其他相关研究

适用场景

  1. 模型鲁棒性评估: 评估ViTs在对抗攻击下的安全性
  2. 对抗训练: 生成更具挑战性的训练样本
  3. 安全研究: 理解和改进深度学习模型的安全性
  4. 跨模型攻击: 在无法获得目标模型信息的黑盒场景中

参考文献

论文引用了相关领域的重要工作,包括:

  • Vision Transformer基础工作 Dosovitskiy et al., 2020
  • 对抗攻击经典方法 Goodfellow, 2014; Madry et al., 2017
  • ViT特定攻击方法 Zhang et al., 2023; Zhu et al., 2024
  • 频域攻击研究 Long et al., 2022

总体评价: 这是一篇高质量的对抗攻击研究论文,在方法创新、实验设计和结果分析方面都表现出色。COGO方法通过共性增强和个性抑制的双重策略,为提升对抗样本可迁移性提供了有效解决方案,对ViT安全性研究具有重要价值。