2025-11-21T16:31:15.957266

HoneypotNet: Backdoor Attacks Against Model Extraction

Wang, Gu, Teng et al.
Model extraction attacks are one type of inference-time attacks that approximate the functionality and performance of a black-box victim model by launching a certain number of queries to the model and then leveraging the model's predictions to train a substitute model. These attacks pose severe security threats to production models and MLaaS platforms and could cause significant monetary losses to the model owners. A body of work has proposed to defend machine learning models against model extraction attacks, including both active defense methods that modify the model's outputs or increase the query overhead to avoid extraction and passive defense methods that detect malicious queries or leverage watermarks to perform post-verification. In this work, we introduce a new defense paradigm called attack as defense which modifies the model's output to be poisonous such that any malicious users that attempt to use the output to train a substitute model will be poisoned. To this end, we propose a novel lightweight backdoor attack method dubbed HoneypotNet that replaces the classification layer of the victim model with a honeypot layer and then fine-tunes the honeypot layer with a shadow model (to simulate model extraction) via bi-level optimization to modify its output to be poisonous while remaining the original performance. We empirically demonstrate on four commonly used benchmark datasets that HoneypotNet can inject backdoors into substitute models with a high success rate. The injected backdoor not only facilitates ownership verification but also disrupts the functionality of substitute models, serving as a significant deterrent to model extraction attacks.
academic

HoneypotNet: Атаки через черный ход против извлечения моделей

Основная информация

  • ID статьи: 2501.01090
  • Название: HoneypotNet: Backdoor Attacks Against Model Extraction
  • Авторы: Yixu Wang, Tianle Gu, Yan Teng, Yingchun Wang, Xingjun Ma
  • Классификация: cs.CR (Криптография и безопасность), cs.CV (Компьютерное зрение)
  • Дата публикации/конференция: Отправлено на arXiv 2 января 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2501.01090

Аннотация

Атаки на извлечение моделей представляют собой атаки во время вывода, при которых путем отправки определенного количества запросов к черному ящику жертвы используются результаты предсказания модели для обучения замещающей модели, приближающей функциональность и производительность модели жертвы. Такие атаки представляют серьезную угрозу безопасности для производственных моделей и платформ MLaaS, потенциально причиняя значительные экономические убытки владельцам моделей. В данной работе предлагается новая парадигма защиты "атака как защита" (attack as defense), которая модифицирует выходные данные модели, делая их токсичными, так что любой злоумышленник, пытающийся использовать эти выходные данные для обучения замещающей модели, будет отравлен. Для этого авторы предлагают HoneypotNet — легковесный метод атаки через черный ход, который заменяет классификационный слой модели жертвы слоем-ловушкой и микронастраивает слой-ловушку с помощью двухуровневой оптимизации и теневой модели (имитирующей процесс извлечения модели), сохраняя при этом исходную производительность и делая выходные данные токсичными.

Исследовательский контекст и мотивация

Определение проблемы

Атаки на извлечение моделей стали одной из основных угроз для платформ машинного обучения как услуги (MLaaS). Злоумышленники отправляют запросы к черному ящику модели через API, используя возвращаемые результаты предсказания для обучения функционально аналогичной замещающей модели, тем самым похищая интеллектуальную собственность модели.

Важность проблемы

  1. Экономические убытки: Атаки на извлечение моделей могут привести к значительным экономическим убыткам для владельцев моделей
  2. Защита интеллектуальной собственности: Обучение глубоких нейронных сетей требует значительных затрат и нуждается в эффективной защите
  3. Угрозы безопасности: Злоумышленники могут использовать извлеченные модели для проведения дальнейших противодействующих атак

Ограничения существующих методов

Существующие методы защиты делятся на две категории:

  1. Пассивная защита: Обнаружение вредоносных запросов или использование водяных знаков для последующей проверки, но зависит от априорных знаний и имеет ограниченную эффективность
  2. Активная защита: Возмущение выходных данных модели или увеличение затрат на запросы для предотвращения извлечения, но требует больших вычислительных затрат и может быть обойдена продвинутыми атаками

Исследовательская мотивация

Традиционные методы защиты страдают от проблемы гонки вооружений. В данной работе предлагается новая парадигма "атака как защита", которая активно атакует замещающую модель для нарушения ее функциональности, создавая мощный сдерживающий эффект для злоумышленников.

Основные вклады

  1. Новая парадигма защиты: Впервые предложена парадигма защиты "атака как защита", активно проводящая атаки через черный ход на замещающие модели
  2. Метод HoneypotNet: Разработан легковесный слой-ловушка, заменяющий исходный классификационный слой, генерирующий токсичные векторы вероятностей через двухуровневую оптимизацию
  3. Черный ход без триггера: Инновационное использование универсальных противодействующих возмущений (UAP) в качестве триггера черного хода без явного внедрения триггера в изображение
  4. Двойная функциональность: Внедренный черный ход одновременно выполняет проверку владения и нарушает функциональность замещающей модели, создавая сильный сдерживающий эффект
  5. Экспериментальная верификация: Метод верифицирован на четырех эталонных наборах данных с частотой успешных атак 56,99%-92,35%

Подробное описание метода

Определение задачи

Для заданной модели жертвы F целью является разработка слоя-ловушки H такого, что:

  • На нормальных входных данных сохраняется исходная производительность
  • Когда злоумышленник использует выходные данные H для обучения замещающей модели F̂, F̂ будет содержать внедренный черный ход
  • Черный ход может использоваться для проверки владения и контратак

Архитектура модели

Проектирование слоя-ловушки

Слой-ловушка H определяется как полносвязный слой:

H(x) = W · F_feat(x) + b

где F_feat(x) — выходные данные признаков модели жертвы, W и b — обучаемые параметры.

Двухуровневая оптимизационная структура

Основная цель оптимизации:

argmin_θH E_x∈Ds[L(H(x),F(x)) + L(H(x+δ),y_target)]

Ограничения:

argmin_θFs E_x∈Ds[L(Fs(x),H(x))]
argmin_δ E_x∈Dv[L(Fs(x+δ),y_target)]

Трехэтапный итеративный процесс

  1. Имитация извлечения: Использование теневой модели Fs для имитации процесса извлечения модели злоумышленником
  2. Генерация триггера: Генерация триггера UAP через обновление градиентного знака
  3. Микронастройка: Обновление параметров слоя-ловушки для внедрения черного хода при сохранении нормальной функциональности

Технические инновации

Универсальные противодействующие возмущения в качестве триггера

  • Использование врожденной противодействующей уязвимости глубоких нейронных сетей
  • UAP может служить в качестве нетоксичного триггера без явного внедрения
  • Реализация передачи черного хода через общую противодействующую уязвимость

Обновление триггера с оптимизацией импульса

δi = α·δi-1 - (1-α)·ε·sign(E_x∈Dv[g(δi-1)])
g(δ) = ∇δL(Fs(M⊙x + (1-M)⊙δ), y_target)

Ограничение маской

Использование предопределенной маски M для ограничения расположения триггера и повышения скрытности.

Экспериментальная установка

Наборы данных

  • Набор данных модели жертвы: CIFAR10, CIFAR100, Caltech256, CUBS200
  • Набор данных атаки: ImageNet (1,2 млн изображений)
  • Теневой набор данных: CC3M (случайно выбрано 5000 изображений)
  • Набор данных проверки: Небольшой набор данных, связанный с задачей

Метрики оценки

  1. Чистая точность тестирования (Acc_c): Точность замещающей модели на чистых тестовых образцах
  2. Точность проверки (Acc_v): Точность замещающей модели в предсказании целевой метки на образцах с триггером
  3. Частота успешных атак (ASR): Частота успешного проведения защитником контратак

Методы сравнения

  • Атаки на извлечение: KnockoffNets, ActiveThief (Entropy & k-Center), SPSG, BlackBox Dissector
  • Базовые методы защиты: Без защиты, DVBW (метод проверки владения набором данных)

Детали реализации

  • BLO итерации: 30 итераций, каждая содержит 3 шага по 5 эпох
  • Теневая модель: ResNet18 (легковесная)
  • Размер триггера: 6×6 для наборов данных CIFAR, 28×28 для других наборов
  • Оптимизатор: SGD, импульс 0,9, скорость обучения 0,1 (теневая модель)/0,02 (слой-ловушка)

Результаты экспериментов

Основные результаты

При бюджете 30k запросов HoneypotNet достигает значительных результатов на всех наборах данных и методах атак:

Метод атакиCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
KnockoffNets59,35%85,71%78,31%79,13%
ActiveThief (Entropy)56,99%74,35%83,22%77,43%
ActiveThief (k-Center)67,49%74,63%80,27%80,80%
SPSG66,12%77,11%83,51%77,88%
BlackBox Dissector78,59%80,05%92,35%78,98%

Ключевые находки

  1. Высокая частота успеха: ASR превышает 56% во всех тестовых сценариях
  2. Сохранение производительности: Acc_c практически идентична случаю без защиты, не вызывая подозрений у злоумышленника
  3. Сильная способность проверки: Acc_v значительно выше, чем у базовых методов, эффективно поддерживая проверку владения
  4. Устойчивость к жестким меткам: Сохраняет высокую эффективность при атаках с жесткими метками BlackBox Dissector

Абляционные исследования

Влияние размера триггера

  • Эксперименты с размером триггера от 1×1 до 15×15 показывают:
  • Больший размер триггера приводит к более высокому ASR
  • Необходимо балансировать размер триггера и скрытность

Различные архитектуры замещающих моделей

АрхитектураCIFAR10 ASRCIFAR100 ASRCUBS200 ASRCaltech256 ASR
ResNet3459,35%85,71%78,31%79,13%
VGG1697,16%87,10%89,82%62,17%
DenseNet12151,68%53,72%65,46%58,00%

Анализ устойчивости защиты

Уклонение от обнаружения черного хода

Использование метода обнаружения Cognitive Distillation (CD) показывает, что распределение норм L1 чистых образцов и образцов с черным ходом высоко схожи, что указывает на хорошую скрытность триггера UAP.

Устойчивость к обрезке нейронов

Тестирование против защиты Reconstructive Neuron Pruning (RNP) показывает, что ASR остается на высоком уровне даже после обрезки, демонстрируя устойчивость черного хода.

Связанные работы

Атаки на извлечение моделей

  1. Методы синтеза данных: Использование GANs или диффузионных моделей для генерации синтетических обучающих данных
  2. Методы выбора данных: Выбор информативных образцов из предварительно сохраненного пула данных, такие как KnockoffNets, ActiveThief

Защита от извлечения моделей

  1. Обнаружение извлечения: Мониторинг поведения запросов пользователя для обнаружения вредоносных пользователей
  2. Доказательство работы: Увеличение затрат на запросы
  3. Водяные знаки модели: Внедрение проверяемых признаков
  4. Возмущение предсказаний: Добавление возмущений к предсказаниям модели

Атаки через черный ход

  1. Атаки с грязными изображениями: Внедрение образцов с триггерами в обучающие данные
  2. Атаки с чистыми изображениями: Внедрение черного хода без изменения изображений

Заключение и обсуждение

Основные выводы

  1. Эффективность новой парадигмы: Парадигма "атака как защита" предоставляет новый подход к защите от извлечения моделей
  2. Техническая осуществимость: HoneypotNet успешно реализует легковесное внедрение черного хода
  3. Практическая ценность: Метод показывает отличные результаты в различных сценариях атак и имеет потенциал практического применения

Ограничения

  1. Вычислительные затраты: Хотя относительно легковесный, все еще требует двухуровневого оптимизационного процесса
  2. Видимость триггера: Больший размер триггера может быть обнаружен
  3. Зависимость от архитектуры: Эффективность варьируется для различных архитектур замещающих моделей
  4. Противодействие защите: Может столкнуться с более продвинутыми методами защиты

Будущие направления

  1. Интеграция теневых моделей: Использование нескольких теневых моделей для повышения устойчивости
  2. Адаптивные триггеры: Разработка более скрытных методов генерации триггеров
  3. Расширение приложений: Распространение метода на другие типы моделей и задач
  4. Теоретический анализ: Предоставление более глубоких теоретических гарантий

Глубокая оценка

Преимущества

  1. Высокая инновационность: Впервые предложена парадигма "атака как защита", идея является новаторской
  2. Продвинутая техника: Умелое сочетание UAP и атак через черный ход решает техническую проблему внедрения триггера без явного внедрения
  3. Полные эксперименты: Всесторонняя оценка на нескольких наборах данных и методах атак
  4. Высокая практическая ценность: Метод является легковесным и подходит для развертывания в реальных системах
  5. Двойная функциональность: Одновременно реализует проверку владения и нарушение функциональности, создавая сильный сдерживающий эффект

Недостатки

  1. Недостаточный теоретический анализ: Отсутствуют теоретические гарантии сходимости и безопасности метода
  2. Ограничения защиты: Устойчивость к некоторым продвинутым методам атак требует дальнейшей верификации
  3. Этические соображения: Активная атака на замещающие модели может вызвать этические и юридические вопросы
  4. Ограниченный диапазон применения: Метод в основном ориентирован на задачи классификации изображений, применимость к другим задачам неизвестна

Влияние

  1. Академический вклад: Предоставляет новое направление исследований в области защиты безопасности моделей
  2. Практическая ценность: Предоставляет практический инструмент защиты для платформ MLaaS
  3. Воспроизводимость: Статья предоставляет подробные детали реализации, облегчающие воспроизведение
  4. Вдохновляющее значение: Может вдохновить больше методов защиты типа "атака как защита"

Применимые сценарии

  1. Платформы MLaaS: Защита моделей облачных служб машинного обучения
  2. Коммерческие модели: Защита интеллектуальной собственности высокостоимостных глубоких нейронных сетей
  3. API-сервисы: Онлайн-сервисы вывода, требующие защиты от кража моделей
  4. Граничные развертывания: Легковесная защита в средах с ограниченными ресурсами

Библиография

Статья ссылается на важные работы в области безопасности машинного обучения, атак и защиты от извлечения моделей, атак через черный ход, включая основополагающие работы KnockoffNets, ActiveThief, атак через черный ход и других, предоставляя прочную теоретическую основу для исследования.


Общая оценка: Предложенный в данной работе метод HoneypotNet имеет важное инновационное значение в области защиты от извлечения моделей. Идея "атака как защита" открывает новое направление исследований в этой области. Техническая реализация является умелой, экспериментальная оценка — полной, обладает высокой академической и практической ценностью. Хотя есть место для улучшения в теоретическом анализе и некоторых технических деталях, в целом это высококачественная исследовательская работа.