2025-11-24T16:40:16.782086

Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization

Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic

Повышение передаваемости противодействующих примеров посредством оптимизации градиента, ориентированной на общность

Основная информация

  • ID статьи: 2506.06992
  • Название: Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
  • Авторы: Yanting Gao, Yepeng Liu, Junming Liu, Qi Zhang, Hongyun Zhang, Duoqian Miao, Cairong Zhao
  • Принадлежность: Университет Тунцзи, Университет Флориды
  • Категория: cs.CV (компьютерное зрение)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2506.06992

Аннотация

Исследование эффективных и передаваемых противодействующих примеров имеет решающее значение для понимания характеристик и механизмов Vision Transformers (ViTs). Однако противодействующие примеры, генерируемые суррогатными моделями, часто демонстрируют слабую передаваемость в условиях чёрного ящика из-за переобучения. Существующие методы улучшают передаваемость путём диверсификации входных возмущений или применения унифицированной регуляризации градиента в суррогатных моделях, но не полностью используют общие и уникальные характеристики суррогатных моделей, обученных на одной и той же задаче, что приводит к субоптимальной производительности передачи. Таким образом, усиление возмущений, содержащих общую информацию суррогатных моделей, и подавление возмущений, связанных с индивидуальными характеристиками, предоставляет эффективный путь для улучшения передаваемости. Соответственно, мы предлагаем стратегию оптимизации градиента, ориентированную на общность (COGO), содержащую два компонента: усиление общности (CE) и подавление индивидуальности (IS). CE возмущает низкочастотные области, используя тот факт, что ViTs, обученные на одном и том же наборе данных, склонны больше полагаться на информацию среднего и низкого диапазона частот для классификации. IS использует адаптивный порог для оценки корреляции между градиентами обратного распространения и индивидуальностью модели, соответственно присваивая веса градиентам. Обширные эксперименты показывают, что COGO значительно повышает коэффициент успеха передачи противодействующих атак, превосходя современные методы.

Исследовательский контекст и мотивация

1. Исследовательская проблема

Данная работа решает проблему передаваемости при противодействующих атаках на Vision Transformers (ViTs). Конкретно, при использовании суррогатной модели для генерации противодействующих примеров с целью атаки на неизвестную целевую модель, генерируемые противодействующие примеры часто не могут эффективно передаваться целевой модели, что приводит к отказу атаки.

2. Важность проблемы

  • Критичные для безопасности приложения: Надёжность ViTs в критичных для безопасности приложениях серьёзно угрожается противодействующими атаками
  • Реалистичность атак чёрного ящика: В практических сценариях злоумышленники обычно не могут получить доступ к внутренней структуре целевой модели, что делает передаваемость ключевым фактором
  • Оценка робастности модели: Понимание передаваемости противодействующих примеров помогает оценивать и улучшать робастность модели

3. Ограничения существующих методов

  • Переобучение: Противодействующие примеры, генерируемые существующими методами, содержат слишком много информации, специфичной для суррогатной модели, что приводит к плохой обобщаемости
  • Унифицированная обработка: Методы, такие как TGR и GNS-HFA, только унифицированно корректируют градиенты на основе статистических характеристик, не учитывая корреляцию между градиентами и специфичными для модели характеристиками
  • Неправильное использование частотной области: Методы, такие как HFA, сосредоточены только на высокочастотных компонентах, игнорируя тот факт, что ViTs больше полагаются на информацию среднего и низкого диапазона частот

4. Исследовательская мотивация

Авторы наблюдают, что различные ViTs, обученные на одном и том же наборе данных, несмотря на различия в архитектуре, имеют общность в моделях принятия решений, особенно в зависимости от информации среднего и низкого диапазона частот. Таким образом, путём усиления общих характеристик и подавления индивидуальных характеристик можно генерировать противодействующие примеры с лучшей передаваемостью.

Основные вклады

  1. Предложена стратегия оптимизации, ориентированная на общность: Впервые рассматривается взаимосвязь между градиентами и характеристиками модели, выходя за рамки традиционных методов унифицированной корректировки градиентов
  2. Разработана структура COGO: Объединяет два компонента — усиление общности (CE) и подавление индивидуальности (IS), используя усиление энергии в частотной области и механизм адаптивного порога
  3. Значительное улучшение производительности: Значительно превосходит существующие современные методы на нескольких эталонных тестах, включая GNS-HFA и ATT
  4. Комплексная экспериментальная проверка: Достигает отличных результатов как при передаче между ViTs, так и при кросс-архитектурной передаче от ViT к CNN

Подробное описание метода

Определение задачи

Дано чистое входное изображение XcleanRNX_{clean} \in \mathbb{R}^N, целью является генерация противодействующего возмущения δ\delta, такого что Xadv=Xclean+δX_{adv} = X_{clean} + \delta может успешно атаковать суррогатную модель и обладает хорошей передаваемостью в условиях чёрного ящика на неизвестную целевую модель.

Архитектура модели

Стратегия COGO содержит два основных компонента:

1. Усиление общности (Commonality Enhancement, CE)

Модуль CE усиливает компоненты среднего и низкого диапазона частот во время прямого распространения:

Шаг 1: Добавление текущего возмущения и гауссовского шума

X = X_clean + δ
X_DCT = DCT(X + ε), где ε ~ N(0, I_N)

Шаг 2: Вычисление распределения энергии и усиление

E(X_DCT) = Normalize(|X_DCT|)
X'_DCT = X_DCT · (1 + γ · E(X_DCT))

Шаг 3: Преобразование обратно в пространственную область и применение пространственной маски

X_IDCT = IDCT(X'_DCT · M)

где γ контролирует интенсивность усиления, M — пространственная маска, унаследованная от HFA.

2. Подавление индивидуальности (Individuality Suppression, IS)

Модуль IS подавляет специфичные для суррогатной модели градиенты во время обратного распространения:

Подавление избыточных характеристик:

  • Использование взаимной информации (MI) и коэффициента корреляции Пирсона (PC) для количественной оценки избыточности между каналами
  • Адаптивный порог: τMI=βMImean(MI(Gi(l),Gj(l)))\tau_{MI} = \beta_{MI} \cdot \text{mean}(MI(G_i^{(l)}, G_j^{(l)}))
  • Вычисление веса: wi=max(0.1,1α(i,j)P(ti,jMI+ti,jcorr))w_i = \max(0.1, 1 - \alpha \sum_{(i,j) \in P} (t_{i,j}^{MI} + t_{i,j}^{corr}))
  • Корректировка градиента: G~i(l)=Gi(l)wi\tilde{G}_i^{(l)} = G_i^{(l)} \cdot w_i

Подавление дополнительных знаний:

  • Для дополнительных токенов, таких как токены дистилляции в ViTs, эффективных по данным
  • Коэффициент масштабирования: c=σ(Gadditional(l)2Gprimary(l)2)c = \sigma(\frac{\|G_{additional}^{(l)}\|_2}{\|G_{primary}^{(l)}\|_2})
  • Корректировка градиента: G~additional(l)=cGadditional(l)\tilde{G}_{additional}^{(l)} = c \cdot G_{additional}^{(l)}

Технические инновации

  1. Использование общности в частотной области: В отличие от HFA, сосредоточенного только на высоких частотах, CE целенаправленно усиливает компоненты среднего и низкого диапазона частот, на которые полагаются ViTs
  2. Адаптивное подавление градиента: IS использует адаптивный порог вместо фиксированного, лучше идентифицируя и подавляя специфичные для модели градиенты
  3. Двойная стратегия оптимизации: CE и IS совместно оптимизируют с прямого и обратного направлений, формируя дополняющий эффект

Экспериментальная установка

Наборы данных

  • Набор валидации ILSVRC 2012: Случайная выборка 1000 изображений, являющаяся стандартной установкой для исследований передачи атак
  • Соответствие экспериментальному протоколу предыдущих работ, таких как TGR

Метрики оценки

  • Коэффициент успеха атаки (ASR): ASR=количество успешных атакобщее количество атак×100%\text{ASR} = \frac{\text{количество успешных атак}}{\text{общее количество атак}} \times 100\%
  • Измеряет долю противодействующих примеров, вызывающих неправильную классификацию целевой моделью

Методы сравнения

  • Основные базовые методы: TGR (специально разработан для ViTs)
  • Новейшие методы: GNS-HFA, ATT
  • Классические методы: MIM, SINI-FGSM, PNA, SSA

Экспериментальные модели

  • Суррогатные модели: Visformer-S, DeiT-B, CaiT-S/24, ViT-B/16
  • Целевые модели ViT: TNT-S, ConViT-B и др.
  • Целевые модели CNN: Inception-v3, Inception-v4, Inception-ResNet-v2, ResNet-101
  • Защищённые модели: Ансамбли с противодействующей тренировкой

Детали реализации

  • Количество итераций атаки: 10
  • Максимальное возмущение \ell_\infty: ϵ=8\epsilon = 8 (в масштабе 0-255)
  • Ключевые гиперпараметры: γ=1\gamma = 1, α=0.1\alpha = 0.1, βMI=0.5\beta_{MI} = 0.5, βcorr=0.7\beta_{corr} = 0.7

Результаты экспериментов

Основные результаты

Производительность передачи между ViTs:

  • Среднее улучшение на 7,2% по сравнению с GNS-HFA
  • Среднее улучшение на 10,1% по сравнению с ATT
  • Достигнуты лучшие результаты на всех протестированных архитектурах ViT

Производительность кросс-архитектурной передачи (ViT → CNN):

  • Среднее улучшение на 2,3% по сравнению с GNS-HFA
  • Среднее улучшение на 10,5% по сравнению с ATT
  • Сохраняет хороший эффект атаки на защищённые модели

Конкретные численные примеры (с Visformer-S в качестве суррогатной модели):

МетодViT-B/16DeiT-BTNT-SInc-v3Inc-v4
GNS-HFA49,1%54,1%81,3%71,6%71,3%
COGO55,2%64,9%85,5%71,8%72,4%

Абляционные исследования

Вклад компонентов CE и IS:

CEISViTsCNNsCNNs-adv
--46,64%30,45%9,80%
-72,56% (+25,92%)56,18% (+25,73%)32,15% (+22,35%)
-62,38% (+15,74%)45,85% (+15,40%)22,77% (+12,97%)
77,97% (+31,33%)63,73% (+33,28%)36,75% (+26,95%)

Ключевые выводы:

  • Компонент CE вносит больший вклад, подтверждая важность усиления в частотной области
  • Компонент IS обеспечивает эффективное дополнение, лучший результат достигается при их комбинации
  • Значительное улучшение наблюдается на всех типах моделей

Чувствительность гиперпараметров:

  • Коэффициент усиления γ = 1 даёт лучший результат
  • Количество итераций N = 10 достигает баланса производительности
  • Количество пар каналов оказывает незначительное влияние на результаты, подтверждая робастность метода

Анализ градиентов

Анализ с использованием метрики дисперсии градиентов показывает:

  • COGO делает распределение градиентов более равномерным и разнообразным
  • Снижает зависимость от специфичных для суррогатной модели характеристик
  • Дополняющий характер CE и IS проявляется явно на разных слоях

Связанные работы

Исследования противодействующих атак на ViT

  • Ранние методы: Главным образом разработаны для CNN, такие как BIM, PGD, MIM
  • Методы преобразования входа: DIM, TIM повышают передаваемость путём преобразования входа
  • Методы частотной области: SSA исследует уязвимости в частотной области, но не оптимизирована для ViTs

Методы, специфичные для ViT

  • TGR: Снижает дисперсию путём подавления экстремальных градиентов
  • GNS-HFA: Нормализует градиенты к гауссовскому распределению и усиливает высокие частоты
  • Вклад данной работы: Впервые рассматривает взаимосвязь между градиентами и характеристиками модели, предлагает оптимизацию, ориентированную на общность

Анализ архитектуры ViT

Авторы классифицируют варианты ViT на две категории:

  1. Эффективные по вычислениям: Visformer, PiT и др., упрощающие операции внимания
  2. Эффективные по данным: DeiT, CaiT и др., повышающие представительную способность через дистилляцию знаний

Заключение и обсуждение

Основные выводы

  1. Эффективность оптимизации, ориентированной на общность: Путём усиления общности между моделями и подавления индивидуальности значительно повышается передаваемость противодействующих примеров
  2. Важность стратегии частотной области: Усиление среднего и низкого диапазона частот, специфичное для ViTs, более эффективно, чем традиционные методы усиления высоких частот
  3. Превосходство адаптивного подавления: Адаптивное подавление на основе корреляции между градиентом и характеристиками превосходит унифицированную корректировку
  4. Хорошая обобщаемость кросс-архитектуры: Метод демонстрирует отличные результаты как при передаче между ViTs, так и при передаче от ViT к CNN

Ограничения

  1. Вычислительные затраты: Преобразования в частотной области и анализ градиентов увеличивают вычислительные затраты
  2. Чувствительность гиперпараметров: Хотя относительно робастна, всё ещё требует надлежащей настройки параметров
  3. Теоретический анализ: Отсутствует глубокий теоретический анализ того, почему усиление среднего и низкого диапазона частот более эффективно
  4. Защита от противодействия: Недостаточно исследована робастность против целевых методов защиты

Направления будущих исследований

  1. Совершенствование теории: Глубокий анализ теоретической основы общности в частотной области
  2. Оптимизация эффективности: Снижение вычислительных затрат, повышение практичности
  3. Исследование защиты: Изучение механизмов защиты против COGO
  4. Расширение применения: Распространение метода на другие варианты Vision Transformer

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые анализирует передаваемость противодействующих примеров с точки зрения общности и индивидуальности, новаторский подход
  2. Систематичность метода: Компоненты CE и IS хорошо разработаны, формируют полную структуру оптимизации
  3. Полнота экспериментов: Охватывает множество архитектур моделей и сценариев атак, результаты убедительны
  4. Значительное улучшение производительности: Явное превосходство над существующими методами, достигнут новый уровень SOTA
  5. Глубокий анализ: Предоставляет глубокие инсайты, такие как анализ дисперсии градиентов

Недостатки

  1. Теоретическая основа: Теоретическое объяснение общности среднего и низкого диапазона частот недостаточно глубоко
  2. Вычислительная эффективность: Преобразования в частотной области и анализ градиентов увеличивают вычислительную сложность
  3. Область применения: Главным образом ориентирована на ViTs, применимость к другим архитектурам ограничена
  4. Рассмотрение защиты: Недостаточно рассмотрена влияние адаптивной защиты

Влияние

  1. Академическая ценность: Предоставляет новый подход оптимизации для исследований противодействующих атак
  2. Практическая ценность: Может использоваться для оценки робастности ViTs
  3. Воспроизводимость: Предоставляет подробные детали реализации и установки гиперпараметров
  4. Вдохновляющее значение: Структура анализа общности-индивидуальности может вдохновить другие связанные исследования

Применимые сценарии

  1. Оценка робастности модели: Оценка безопасности ViTs при противодействующих атаках
  2. Противодействующая тренировка: Генерация более сложных обучающих примеров
  3. Исследование безопасности: Понимание и улучшение безопасности глубоких моделей обучения
  4. Кросс-модельные атаки: Атаки в сценариях чёрного ящика, когда информация о целевой модели недоступна

Библиография

Статья цитирует важные работы в соответствующих областях, включая:

  • Фундаментальные работы по Vision Transformer Dosovitskiy et al., 2020
  • Классические методы противодействующих атак Goodfellow, 2014; Madry et al., 2017
  • Методы атак, специфичные для ViT Zhang et al., 2023; Zhu et al., 2024
  • Исследования атак в частотной области Long et al., 2022

Общая оценка: Это высококачественная статья по исследованию противодействующих атак, демонстрирующая отличные результаты в инновационности метода, проектировании экспериментов и анализе результатов. Метод COGO, используя двойную стратегию усиления общности и подавления индивидуальности, предоставляет эффективное решение для повышения передаваемости противодействующих примеров и имеет важное значение для исследования безопасности ViT.