Boosting Adversarial Transferability via Commonality-Oriented Gradient Optimization
Gao, Liu, Liu et al.
Exploring effective and transferable adversarial examples is vital for understanding the characteristics and mechanisms of Vision Transformers (ViTs). However, adversarial examples generated from surrogate models often exhibit weak transferability in black-box settings due to overfitting. Existing methods improve transferability by diversifying perturbation inputs or applying uniform gradient regularization within surrogate models, yet they have not fully leveraged the shared and unique features of surrogate models trained on the same task, leading to suboptimal transfer performance. Therefore, enhancing perturbations of common information shared by surrogate models and suppressing those tied to individual characteristics offers an effective way to improve transferability. Accordingly, we propose a commonality-oriented gradient optimization strategy (COGO) consisting of two components: Commonality Enhancement (CE) and Individuality Suppression (IS). CE perturbs the mid-to-low frequency regions, leveraging the fact that ViTs trained on the same dataset tend to rely more on mid-to-low frequency information for classification. IS employs adaptive thresholds to evaluate the correlation between backpropagated gradients and model individuality, assigning weights to gradients accordingly. Extensive experiments demonstrate that COGO significantly improves the transfer success rates of adversarial attacks, outperforming current state-of-the-art methods.
academic
Повышение передаваемости противодействующих примеров посредством оптимизации градиента, ориентированной на общность
Исследование эффективных и передаваемых противодействующих примеров имеет решающее значение для понимания характеристик и механизмов Vision Transformers (ViTs). Однако противодействующие примеры, генерируемые суррогатными моделями, часто демонстрируют слабую передаваемость в условиях чёрного ящика из-за переобучения. Существующие методы улучшают передаваемость путём диверсификации входных возмущений или применения унифицированной регуляризации градиента в суррогатных моделях, но не полностью используют общие и уникальные характеристики суррогатных моделей, обученных на одной и той же задаче, что приводит к субоптимальной производительности передачи. Таким образом, усиление возмущений, содержащих общую информацию суррогатных моделей, и подавление возмущений, связанных с индивидуальными характеристиками, предоставляет эффективный путь для улучшения передаваемости. Соответственно, мы предлагаем стратегию оптимизации градиента, ориентированную на общность (COGO), содержащую два компонента: усиление общности (CE) и подавление индивидуальности (IS). CE возмущает низкочастотные области, используя тот факт, что ViTs, обученные на одном и том же наборе данных, склонны больше полагаться на информацию среднего и низкого диапазона частот для классификации. IS использует адаптивный порог для оценки корреляции между градиентами обратного распространения и индивидуальностью модели, соответственно присваивая веса градиентам. Обширные эксперименты показывают, что COGO значительно повышает коэффициент успеха передачи противодействующих атак, превосходя современные методы.
Данная работа решает проблему передаваемости при противодействующих атаках на Vision Transformers (ViTs). Конкретно, при использовании суррогатной модели для генерации противодействующих примеров с целью атаки на неизвестную целевую модель, генерируемые противодействующие примеры часто не могут эффективно передаваться целевой модели, что приводит к отказу атаки.
Критичные для безопасности приложения: Надёжность ViTs в критичных для безопасности приложениях серьёзно угрожается противодействующими атаками
Реалистичность атак чёрного ящика: В практических сценариях злоумышленники обычно не могут получить доступ к внутренней структуре целевой модели, что делает передаваемость ключевым фактором
Оценка робастности модели: Понимание передаваемости противодействующих примеров помогает оценивать и улучшать робастность модели
Переобучение: Противодействующие примеры, генерируемые существующими методами, содержат слишком много информации, специфичной для суррогатной модели, что приводит к плохой обобщаемости
Унифицированная обработка: Методы, такие как TGR и GNS-HFA, только унифицированно корректируют градиенты на основе статистических характеристик, не учитывая корреляцию между градиентами и специфичными для модели характеристиками
Неправильное использование частотной области: Методы, такие как HFA, сосредоточены только на высокочастотных компонентах, игнорируя тот факт, что ViTs больше полагаются на информацию среднего и низкого диапазона частот
Авторы наблюдают, что различные ViTs, обученные на одном и том же наборе данных, несмотря на различия в архитектуре, имеют общность в моделях принятия решений, особенно в зависимости от информации среднего и низкого диапазона частот. Таким образом, путём усиления общих характеристик и подавления индивидуальных характеристик можно генерировать противодействующие примеры с лучшей передаваемостью.
Предложена стратегия оптимизации, ориентированная на общность: Впервые рассматривается взаимосвязь между градиентами и характеристиками модели, выходя за рамки традиционных методов унифицированной корректировки градиентов
Разработана структура COGO: Объединяет два компонента — усиление общности (CE) и подавление индивидуальности (IS), используя усиление энергии в частотной области и механизм адаптивного порога
Значительное улучшение производительности: Значительно превосходит существующие современные методы на нескольких эталонных тестах, включая GNS-HFA и ATT
Комплексная экспериментальная проверка: Достигает отличных результатов как при передаче между ViTs, так и при кросс-архитектурной передаче от ViT к CNN
Дано чистое входное изображение Xclean∈RN, целью является генерация противодействующего возмущения δ, такого что Xadv=Xclean+δ может успешно атаковать суррогатную модель и обладает хорошей передаваемостью в условиях чёрного ящика на неизвестную целевую модель.
Использование общности в частотной области: В отличие от HFA, сосредоточенного только на высоких частотах, CE целенаправленно усиливает компоненты среднего и низкого диапазона частот, на которые полагаются ViTs
Адаптивное подавление градиента: IS использует адаптивный порог вместо фиксированного, лучше идентифицируя и подавляя специфичные для модели градиенты
Двойная стратегия оптимизации: CE и IS совместно оптимизируют с прямого и обратного направлений, формируя дополняющий эффект
TGR: Снижает дисперсию путём подавления экстремальных градиентов
GNS-HFA: Нормализует градиенты к гауссовскому распределению и усиливает высокие частоты
Вклад данной работы: Впервые рассматривает взаимосвязь между градиентами и характеристиками модели, предлагает оптимизацию, ориентированную на общность
Эффективность оптимизации, ориентированной на общность: Путём усиления общности между моделями и подавления индивидуальности значительно повышается передаваемость противодействующих примеров
Важность стратегии частотной области: Усиление среднего и низкого диапазона частот, специфичное для ViTs, более эффективно, чем традиционные методы усиления высоких частот
Превосходство адаптивного подавления: Адаптивное подавление на основе корреляции между градиентом и характеристиками превосходит унифицированную корректировку
Хорошая обобщаемость кросс-архитектуры: Метод демонстрирует отличные результаты как при передаче между ViTs, так и при передаче от ViT к CNN
Статья цитирует важные работы в соответствующих областях, включая:
Фундаментальные работы по Vision Transformer Dosovitskiy et al., 2020
Классические методы противодействующих атак Goodfellow, 2014; Madry et al., 2017
Методы атак, специфичные для ViT Zhang et al., 2023; Zhu et al., 2024
Исследования атак в частотной области Long et al., 2022
Общая оценка: Это высококачественная статья по исследованию противодействующих атак, демонстрирующая отличные результаты в инновационности метода, проектировании экспериментов и анализе результатов. Метод COGO, используя двойную стратегию усиления общности и подавления индивидуальности, предоставляет эффективное решение для повышения передаваемости противодействующих примеров и имеет важное значение для исследования безопасности ViT.