Apollo: A Posteriori Label-Only Membership Inference Attack Towards Machine Unlearning
Tang, Joshi, Kundu
Machine Unlearning (MU) aims to update Machine Learning (ML) models following requests to remove training samples and their influences on a trained model efficiently without retraining the original ML model from scratch. While MU itself has been employed to provide privacy protection and regulatory compliance, it can also increase the attack surface of the model. Existing privacy inference attacks towards MU that aim to infer properties of the unlearned set rely on the weaker threat model that assumes the attacker has access to both the unlearned model and the original model, limiting their feasibility toward real-life scenarios. We propose a novel privacy attack, A Posteriori Label-Only Membership Inference Attack towards MU, Apollo, that infers whether a data sample has been unlearned, following a strict threat model where an adversary has access to the label-output of the unlearned model only. We demonstrate that our proposed attack, while requiring less access to the target model compared to previous attacks, can achieve relatively high precision on the membership status of the unlearned samples.
academic
Apollo: Атака на вывод членства апостериори только по меткам в отношении машинного разучивания
Машинное разучивание (Machine Unlearning, MU) направлено на эффективное удаление обучающих образцов и их влияния из обученной модели без необходимости переобучения с нуля. Хотя MU используется для обеспечения защиты конфиденциальности и соответствия нормативным требованиям, оно также может увеличить поверхность атаки модели. Существующие атаки вывода конфиденциальности на MU предполагают, что злоумышленник имеет доступ к модели до и после разучивания, что ограничивает их применимость в реальных сценариях. В данной статье предлагается новая атака на конфиденциальность — Apollo (атака на вывод членства апостериори только по меткам), которая может вывести, был ли образец данных разучен, имея доступ только к выходам меток разученной модели. Экспериментальные результаты показывают, что несмотря на меньший требуемый доступ к модели, Apollo достигает относительно высокой точности при выводе статуса членства разученных образцов.
Основной вопрос: Может ли машинное разучивание как метод защиты конфиденциальности само по себе привести к утечке конфиденциальной информации? Конкретнее, может ли злоумышленник, имея доступ только к разученной модели, вывести, какие данные были разучены?
Требования нормативного соответствия: Нормативные акты, такие как GDPR и CCPA, предоставляют пользователям "право на забвение", требуя от моделей ML возможности удаления данных пользователя
Парадокс конфиденциальности: Машинное разучивание само по себе является средством защиты конфиденциальности, но процесс разучивания может привести к новым рискам конфиденциальности
Реальная угроза: В сценариях MLaaS пользователи обычно не имеют доступа к исходной модели, поэтому существующие методы атак неприменимы
Существующие атаки вывода членства (MIA) на MU имеют следующие проблемы:
Требуют доступа к исходной модели: Большинство атак (например, Chen et al., Gao et al.) требуют одновременного доступа к моделям до и после разучивания
Требуют апостериорных вероятностей: Многие методы зависят от распределения вероятностей выходов модели
Нереалистичная модель угрозы: В реальных сценариях MLaaS клиенты обычно не могут получить исходную модель
В данной статье предлагается наиболее строгая модель угрозы: злоумышленник может получить доступ только к выходам меток разученной модели (label-only, a posteriori), что более соответствует реальным сценариям. Ключевое понимание заключается в том, что приблизительные алгоритмы разучивания создают два типа артефактов в пространстве решений — недоразучивание (UNDER-UNLEARNING) и переразучивание (OVER-UNLEARNING), которые могут быть использованы для вывода статуса членства.
Предложена атака Apollo: Первая атака на вывод членства апостериори, требующая только черного ящика и доступа к меткам, с наиболее строгой моделью угрозы
Формализация артефактов разучивания: Выявление и формальное определение двух явлений — UNDER-UNLEARNING и OVER-UNLEARNING с доказательством теоретических границ (Теоремы III.3 и III.4)
Обширная экспериментальная проверка: Проверка на нескольких наборах данных (CIFAR-10/100, ImageNet) и 6 алгоритмах разучивания, демонстрирующая высокую точность вывода даже при строгой модели угрозы
Раскрытие угрозы конфиденциальности: Прямое опровержение заявлений о конфиденциальности существующих методов разучивания, подчеркивающее необходимость более осторожных методов защиты конфиденциальности при разучивании
Входные данные: целевая модель θ_u, целевой образец (x,y), теневые модели Θ^s, размер шага ε
Выходные данные: противоположный образец x'
x' ← x
для t = 1 до T:
вычислить градиент g_{t,i} ← ∇_{x'} ℓ(x'; x,y,Θ)
x' ← SGD(x', средний градиент)
проекция на сферический слой B_{tε}(x) \ B_{(t-1)ε}(x) // ограничение локальности
если средняя уверенность < τ:
ранняя остановка
вернуть x'
Ключевые особенности проектирования:
Постепенное расширение радиуса поиска (от (t−1)ϵ до tϵ)
GA (4a): U-LiRA самая сильная, Apollo вторая, общая AUC высокая
FT (4b): Все атаки неэффективны, Apollo немного лучше
BT (4c): U-MIA самая сильная (95% TPR), Apollo слабее
SCRUB (4d): Apollo явно превосходит U-LiRA
SalUn (4e): U-LiRA немного лучше
SFR-on (4f): Apollo имеет явное преимущество в области низкого FPR
RT (4g): Все атаки близки к случайной линии
Реальность угрозы конфиденциальности: Даже при наиболее строгой модели угрозы (только доступ к меткам, без исходной модели) злоумышленник может с высокой точностью вывести разученные образцы
Прочная теоретическая основа: UNDER-UNLEARNING и OVER-UNLEARNING имеют четкие теоретические границы (условия Липшица)
Высокая практическая применимость:
Онлайн-версия: максимальный TPR 68.5% (GA на CIFAR-10)
Офлайн-версия: немного ниже производительность, но значительно ниже вычислительные затраты
Значительные различия между алгоритмами: Уязвимость различных алгоритмов разучивания сильно различается, требуя целевой защиты
Оспаривание существующих заявлений: Прямое опровержение заявлений о защите конфиденциальности большинства методов разучивания
Apollo — это высококачественная статья по безопасности машинного обучения, раскрывающая риски конфиденциальности машинного разучивания через наиболее строгую модель угрозы (label-only, a posteriori). Основные вклады:
Теоретическая инновация: Формализация явлений UNDER/OVER-UNLEARNING с теоретическими границами Липшица
Практическая применимость: Онлайн/офлайн версии, баланс между эффективностью и затратами
Надежные эксперименты: Несколько наборов данных, алгоритмов, детальная абляция, надежные выводы
Несмотря на ограничения (сильное предположение Липшица, малый размер образца), статья прямо оспаривает эффективность разучивания как инструмента конфиденциальности, имея важное предупредительное значение для области. Рекомендуемые направления будущих работ:
Исследование методов атак в сценариях без Липшица
Разработка алгоритмов разучивания, робастных к Apollo